Conditional Expectation, 조건부 기댓값
Conditional Expectation
확률변수 $X$와 사건 $A$에 대하여, $A$가 일어났을 때의 $X$의 기댓값(conditional expectation of $X$ given $A$)을 $E(X|A)$라고 한다.
\[ E(X|A) = \sum_{x \in R}xP(X=x|A) = \sum_{x \in R}x \cfrac{P(X=x, A)}{P(A)} \]
Discrete case
두 확률변수 $X$, $Y$에 대하여 $Y$가 주어진 경우 $X$의 조건부 기댓값 $E(X|Y=y)$는 다음과 같다.
\[ E(X|Y=y) = \sum xP(X=x | Y=y) = \sum x\cfrac{p_{X, Y}(x, y)}{p_Y(y)} \]
Continuous case
두 확률변수 $X$, $Y$에 대하여 $Y$가 주어진 경우 $X$의 조건부 기댓값 $E(X|Y=y)$는 다음과 같다.
\[ E(X|Y=y) = \int_x xf_{X|Y}(x|y)dx = \int_x x \cfrac{f_{X,Y}(x, y)}{f_Y(y)} dx \]
Note: 조건부 기댓값 $E(X|Y=y)$의 결과는$Y$에 대한 식이다.
Double Expectation
(1) $E(E(X|Y)) = E(X)$ (Total expectation law, 전체 기댓값의 법칙)
(2) $E(g(Y) X|Y) = g(Y)E(X|Y)$ (given $Y$이므로 $g(Y)$는 상수취급할 수 있다.)
(3) $E(E(X|Y)|Y) = E(X|Y)$ ($E(X|Y)$가 이미 $Y$에 대한 식 $g(Y)$이므로 $E(g(Y)|Y)$ 는 조건부가 아니다.)
Example
주사위를 던져 나온 수($n$) 만큼 동전을 던져 앞면이 나오는 동전의 개수($X$)의 기댓값을 구해보자.
이를 수식으로 설명하면
$n \sim U(1, 2, 3, 4, 5, 6)$, $X|n \sim Binomial(n, 0.5)$가 된다.
전체 기댓값의 법칙을 이용하여
$E(X) = E(E(X|n)) = E(0.5n) = 0.5 \cfrac{1+6}{2} = (0.5)(3.5)$이다.
이를 일반화하면 $n \sim U(1, 2, \dots, N)$, $X|n \sim B(n, p)$이므로
$E(X) = E(E(X|n)) = E(np) = pE(n) = p\cfrac{1+N}{2}$
$E(np)$를 계산할 때, 이미 $p$는 확률변수가 아니므로 $pE(n)$으로 계산할 수 있다.
마찬가지로 결과 $p\cfrac{1+N}{2}$에서도 역시 $N$은 확률변수가 아니다.
Conditional Variance, 조건부 분산
$Y$가 주어진 경우 $X$의 분산을 조건부 분산 $Var(X|Y)$라 하고 다음과 같이 정의한다.
\[ Var(X|Y) = E[(X - E(X|Y))^2 | Y] = E(X^2|Y) - (E(X|Y))^2 \]
Example
$p \sim U(0, 1)$이고 $X|p \sim B(n, p)$일 때, $V(X)$를 구해보자.
$\begin{align*} V(X) &= V(E(X|p)) + E(V(X|p)) \\ &= V(np) + E(npq) \\ &= n^2V(p) + nE(p(1-p)) \\ &= \frac{n^2}{12} + \frac{n}{6} \end{align*}$
한편 $E(p(1-p)) = \int_0^1 p(1-p) dp = 1/B(2, 2) = \Gamma(2) \Gamma(2) / \Gamma(2+2) = 1/6$을 이용했다.
Total variance law, 전체 분산의 법칙
\[ Var(X) = Var(E(X|Y)) + E(Var(X|Y)) \]
Regression Modeling
$X$와 $Y$의 순서를 바꾸어서 데이터 $X$가 주어졌을 때, $Y$를 예측하는 모델링을 해보자.
따라서 $E(Y|X)$를 찾는 문제가 된다. 그래서 종종
\[ f(x) = E(Y|X=x) \]
라도 표기한다. (이때 $f$는 regressor, ANOVA, random foreset 등 모든 모델이 가능하다.)
이때 $Y$의 전체 분산은 다음과 같다.
\[ Var(Y) = Var(E(Y|X)) + E(Var(Y|X)) \]
여기서 $Var(E(Y|X))$는 $\widehat{f(x)}$의 분산, 즉 $\hat{f}$로 설명되는 불확실성이고, $E(Var(Y|X))$는 여전히 남아있는 불확실성(remaining uncertainty)이다.
'스터디 > 확률과 통계' 카테고리의 다른 글
확률변수의 수렴과 큰 수의 법칙 (Sampling, Convergence, Law of Large Numbers) (0) | 2023.04.23 |
---|---|
확률에서의 부등식, Inequality (Markov's, Chebychev's, Cauchy-Schwartz, Jensen's, 마르코프, 체비셰프, 코시-슈바르츠, 젠센 부등식) (0) | 2023.04.13 |
적률 생성 함수, Moment Generating Function (MGF) (0) | 2023.04.05 |
공분산과 상관계수, Covariance and Correlation (0) | 2023.03.31 |
분산, Variance (0) | 2023.03.30 |