본문 바로가기
스터디/확률과 통계

분산, Variance

by 궁금한 준이 2023. 3. 30.
728x90
반응형

 

 

확률변수 $X$의 기댓값 $E(X)$를 구하는 법을 알았다.

이제, $X$가 $E(X)$로부터 얼마나 멀리 떨어져 있는지에 대한 정보인 분산에 대해 알아보자.

 

Variance, 분산
\[ Var(X) = \sigma_X^2 = E\left[ (X - E(X))^2 \right]  = E(X^2)-\mu^2 \]

Standard Deviation, 표준편차
\[ Sd(X) = \sqrt{Var(X)} = \sigma_X \]
Note: 경우에 따라 $Var(X)$대신 $V(X)$를, $E(X)$대신 $\mu_X$로 표기할 수 있다.
Note: 분산의 단위는 $X$의 단위의 제곱이다.
Note: 표준편차의 단위는 $X$의 단위와 같다.

 

(1) 이항분포의 분산

$E(X)=n\theta$임을 알고 있으므로, $E(X^2)$을 통해 분산을 계산하자.

$\displaystyle E(X^2) = \sum_0^n x^2 \binom{n}{x}\theta^x (1-\theta)^{n-x}$

그런데 기댓값에서의 계산과 달리 $x^2$은 팩토리얼 연산으로 소거가 되지 않는다.

따라서 $E(X(X-1))$을 통해 계산해보자.

 

\begin{align}
E(X(X-1)) &= \sum_0^b x(x-1)\binom{n}{x}\theta^x (1-\theta)^{n-x} \\
                &= n(n-1) \left[ \sum_1^n \cfrac{(n-2)!}{(x-2)! (n-x)!}\theta^{x-2}(1-\theta)^{n-x} \right] \theta^2 \\
                &= (\theta + 1 - \theta)^{n-2} \cdot n(n-1)\theta^2 \\
                &= n(n-1)\theta^2
\end{align}

 

$E(X^2) = E(X(X-1)) + E(X) = (n^2-n)\theta^2 + n\theta$

따라서 분산은 

\[ Var(X) = n\theta(1-\theta) = npq \ (p+q=1) \]

 

(2) 감마분포의 분산

먼저 $E(X^2)$를 구하면

\begin{align}
E(X^2) 
&= \int_0^{\infty} x^2 \cfrac{\lambda^{\alpha}}{\Gamma(\alpha)}x^{\alpha - 1}e^{-\lambda x} dx \\
&= \left[ \int_0^{\infty}x^{\alpha+2-1}e^{-\lambda x} \cfrac{\lambda^{\alpha+2}}{\Gamma(\alpha+2)} dx \right] \cdot \cfrac{\Gamma(\alpha+2)}{\lambda^{\alpha+2}} \cdot \cfrac{\lambda^{\alpha}}{\Gamma(\alpha)} \\
&= \cfrac{(\alpha+1)\alpha}{\lambda^2} 
\end{align}

 

따라서 분산은 

\[ Var(X) = \cfrac{(\alpha+1)\alpha}{\lambda^2} - \left( \cfrac{\alpha}{\lambda} \right)^2 = \cfrac{\alpha}{\lambda^2} \]

 

Properties of Variance

(1) $Var(X) \ge 0$
(2) $Var(aX + b) = a^2Var(X)$
(3) $Var(X) = E(X^2) - E(X)^2$
(4) $Sd(aX + b) = |a|Sd(X)$

(3) 정규분포의 분산

$Z \sim N(0, 1)$이고 $X = \sigma Z + \mu$일 때,

\[ E(X) = \mu, Var(X) = \sigma^2 \]

 

 

평균과 분산은 어떤 분포의 특성을 정확하게 반영한다.

예를 들어, 미지의 분포의 평균과 분산이 각각 $10$과 $20$이라면, 이 분포는 절대로 포아송분포가 될 수 없다.

왜냐하면 포아송분포는 평균과 분산이 둘다 $\lambda$로 동일한 분포이기 때문이다. (만약 그렇다면, 분포를 새로 정의해야 할 것이다.)

728x90
반응형