본문 바로가기
스터디/확률과 통계

조건부 기댓값과 조건부 분산, Conditional Expectation, Conditional Variance, Double Expectation, Law of Total Variance

by 궁금한 준이 2023. 4. 9.
728x90
반응형

 

 

Conditional Expectation, 조건부 기댓값

Conditional Expectation
확률변수 $X$와 사건 $A$에 대하여, $A$가 일어났을 때의 $X$의 기댓값(conditional expectation of $X$ given $A$)을 $E(X|A)$라고 한다.
\[ E(X|A) = \sum_{x \in R}xP(X=x|A) = \sum_{x \in R}x \cfrac{P(X=x, A)}{P(A)} \]

Discrete case
두 확률변수 $X$, $Y$에 대하여 $Y$가 주어진 경우 $X$의 조건부 기댓값 $E(X|Y=y)$는 다음과 같다.
\[ E(X|Y=y) = \sum xP(X=x | Y=y) = \sum x\cfrac{p_{X, Y}(x, y)}{p_Y(y)} \] 

Continuous case
두 확률변수 $X$, $Y$에 대하여 $Y$가 주어진 경우 $X$의 조건부 기댓값 $E(X|Y=y)$는 다음과 같다.
\[ E(X|Y=y) = \int_x xf_{X|Y}(x|y)dx = \int_x x \cfrac{f_{X,Y}(x, y)}{f_Y(y)} dx \]
Note: 조건부 기댓값 $E(X|Y=y)$의 결과는$Y$에 대한 식이다.

 

Double Expectation
(1) $E(E(X|Y)) = E(X)$ (Total expectation law, 전체 기댓값의 법칙)
(2) $E(g(Y) X|Y) = g(Y)E(X|Y)$ (given $Y$이므로 $g(Y)$는 상수취급할 수 있다.)
(3) $E(E(X|Y)|Y) = E(X|Y)$ ($E(X|Y)$가 이미 $Y$에 대한 식 $g(Y)$이므로 $E(g(Y)|Y)$ 는 조건부가 아니다.)

 

Example

주사위를 던져 나온 수($n$) 만큼 동전을 던져 앞면이 나오는 동전의 개수($X$)의 기댓값을 구해보자. 

이를 수식으로 설명하면

$n \sim U(1, 2, 3, 4, 5, 6)$, $X|n \sim Binomial(n, 0.5)$가 된다. 

전체 기댓값의 법칙을 이용하여

$E(X) = E(E(X|n)) = E(0.5n) = 0.5 \cfrac{1+6}{2} = (0.5)(3.5)$이다.

 

이를 일반화하면 $n \sim U(1, 2, \dots, N)$, $X|n \sim B(n, p)$이므로

$E(X) = E(E(X|n)) = E(np) = pE(n) = p\cfrac{1+N}{2}$

$E(np)$를 계산할 때, 이미 $p$는 확률변수가 아니므로 $pE(n)$으로 계산할 수 있다.

마찬가지로 결과 $p\cfrac{1+N}{2}$에서도 역시 $N$은 확률변수가 아니다.

 

Conditional Variance, 조건부 분산
$Y$가 주어진 경우 $X$의 분산을 조건부 분산 $Var(X|Y)$라 하고 다음과 같이 정의한다.
\[ Var(X|Y) = E[(X - E(X|Y))^2 | Y] = E(X^2|Y) - (E(X|Y))^2 \]

 

Example

$p \sim U(0, 1)$이고 $X|p \sim B(n, p)$일 때, $V(X)$를 구해보자.

$\begin{align*} V(X) &= V(E(X|p)) + E(V(X|p)) \\ &= V(np) + E(npq) \\ &= n^2V(p) + nE(p(1-p)) \\ &= \frac{n^2}{12} + \frac{n}{6} \end{align*}$

 

한편 $E(p(1-p)) = \int_0^1 p(1-p) dp = 1/B(2, 2) = \Gamma(2) \Gamma(2) / \Gamma(2+2) = 1/6$을 이용했다.

 

Total variance law, 전체 분산의 법칙
\[ Var(X) = Var(E(X|Y)) + E(Var(X|Y)) \]

Regression Modeling

$X$와 $Y$의 순서를 바꾸어서 데이터 $X$가 주어졌을 때, $Y$를 예측하는 모델링을 해보자.

따라서 $E(Y|X)$를 찾는 문제가 된다. 그래서 종종 

\[ f(x) = E(Y|X=x) \]

라도 표기한다. (이때 $f$는 regressor, ANOVA, random foreset 등 모든 모델이 가능하다.)

 

이때 $Y$의 전체 분산은 다음과 같다.

\[ Var(Y) = Var(E(Y|X)) + E(Var(Y|X)) \]

여기서 $Var(E(Y|X))$는 $\widehat{f(x)}$의 분산, 즉 $\hat{f}$로 설명되는 불확실성이고, $E(Var(Y|X))$는 여전히 남아있는 불확실성(remaining uncertainty)이다.

728x90
반응형