The Central Limit Theorem
The Central Limit Theorem (CLT, 중심극한정리)
$X_1, X_2, \dots$가 i.i.d이고 유한한 평균과 분산이 각각 $\mu,\ \sigma^2$이라 하자. sequence $Z_n$이
\[ Z_n = \sqrt{n} \left( \cfrac{\overline{X}_n - \mu}{\sigma} \right) \]
라 하면, $Z_n$은 표준정규분포로 분포수렴한다.
($Z_n \overset{D}{\to} Z$ where $Z \sim N(0, 1)$)
Note: 표본표준편차는 $\sigma_{\overline{X}} = \cfrac{\sigma}{\sqrt{n}}$이므로 $Z_n=\cfrac{\overline{X}-\mu}{\sigma_{\overline{X}}}$ 으로 표기하는 경우도 있다.
Note: $X_i$가 어떤 분포를 따르던지 i.i.d이면 CLT가 성립한다.
그런데 직접 $\sigma$를 이용하는 대신, $\sigma_n \overset{\text{a.s.}}{\to} \sigma$를 이용할 수 있다.
Corollary
$S_n = \sum_{i=1}^{n}X_i$이고 $M_n = S_n/n$이라 하고
\[ Z_n^* = \sqrt{n} \left( \cfrac{M_n - \mu}{\sigma_n} \right) \]
이고 $\lim_{n \to \infty}\sigma_n \overset{\text{a.s.}}{\to}\sigma$라 하자. 그러면
\[ Z_n^* \overset{D}{\to}Z \]
이다.
Moment를 이용한 증명
$Z_n = \cfrac{\overline{X}-\mu}{\sigma / \sqrt{n}} = \cfrac{X_1 + X_2 + \cdots + X_n -n\mu}{\sqrt{n}\sigma}$
$Y_i = \cfrac{X_i-\mu}{\sigma}$라 하면 $E(Y_i)=0,\ Var(Y_i)=1$이고
$Z_n = \cfrac{Y_1 + Y_2 + \cdots + Y_n}{n}$
확률변수의 합의 mgf는 각각의 mgf의 곱과 같으므로
$M_{Z_n}(t) = \prod_{i=1}^{n}M_{Y_i} = [M_{Y_1}(t)]^{n} \approx [1 + \frac{t}{\sqrt{n}}E(Y_1) + \frac{t^2}{2n}E(Y_1^2) ]^n=(1+\frac{t^2}{2n})^n \to e^{\frac{1}{2}t^2}$
(Tayler series 근사와 $\displaystyle\lim_{n \to \infty}(1 + c/n)^n = e^c$를 이용함)
이는 $N(0, 1)$의 mgf와 동일하므로 $Z_n \overset{D}{\to}Z$이다.
(1) Binomial to Normal
$X_i \sim Ber(\theta)$이고 $X = X_1 + \cdots + X_n$이라 하자.
$E(X_i)=\theta,\ V(X_i)=\theta (1-\theta)$
$\cfrac{X}{n} = \hat{\theta}$이고(sample proportion, sample mean) CLT에 의하여
\[ \cfrac{\sqrt{n} (\hat{\theta} - \theta)}{\sqrt{\theta(1-\theta)}} \overset{D}{\to} Z \sim N(0, 1) \]
따라서 $n$이 충분히 크면 $X \sim B(n, \theta) \approx N(n\theta, n\theta(1-\theta))$ 이다.
Continuity Correction (연속성 수정, correction for continuity)
CLT에 의하여 이산분포를 연속분포로 근사하기에 구간 대응이 완벽하지 않다.
누적분포함수 관점에서 보면 아래와 같다. ($X = X_1 + \cdots + X_n$)
\[ P(X \le x) \approx \Phi\left(\cfrac{x-n\theta}{\sqrt{n\theta(1-\theta)}}\right) \]
이 때 $x$가 속한 구간을 $(x-0.5,\ x+0.5)$로 조정해주면 좀 더 정확하게 구할 수 있다.
따라서 아래와 같이 수정하여 계산할 수 있다.
\[ P(X \le x) =P(X \le x + 0.5) \approx \Phi\left(\cfrac{x+0.5 -n\theta}{\sqrt{n\theta(1-\theta)}}\right) \]
Example
$X \sim B(100, 0.27)$일 때, $P(X \ge 50)$을 구해보자.
이항분포의 pmf를 이용하여 직접 $P(X=50) + P(X=51) + \cdots + P(X=100)$을 구할 수 있겠다. (거의 불가능하다)
$n$이 크기 때문에 CLT를 이용하자.
$E(X)=27,\ V(X)=19.71,\ Sd(X)=4.44$이므로
$P(X \ge 50) = P(X \ge 49.5) \approx P\left( \cfrac{X-27}{4.44} \ge \cfrac{49.5-27}{4.44} \right) = P(Z \ge 5.06)$
(2) Poisson to Normal
$X_1 \sim Poisson(\lambda_1)$, $X_2 \sim Poisson(\lambda_2)$일 때
$X_1 + X_2 \sim Poisson(\lambda_1 + \lambda_2)$임을 mgf을 이용하여 보일 수 있다.
이제 $X_i \sim Poisson(\lambda/n)$이라 하자. (i.i.d를 만족하기 위해)
그리고 $X = X_1 + \cdots + X_n$이라 하면 CLT에 의해 $X \sim N(\lambda,\ \lambda)$ 이다.
Assessing Error using CLT
$E(X)=\theta$를 이용하여 $\overline{X}$의 값을 추정하였다. 그런데 얼마나 정확한가? (얼마나 신뢰할 수 있는가?)
표준정규분포에서 $P(-3 < Z < 3)=0.997$임을 이용하면
\[ P\left( -3 < \cfrac{\sqrt{n}(\overline{X}-\theta)}{\sigma} < 3 \right) \approx 1 \]
따라서 $\theta$가 구간 $\overline{X} \pm 3\cfrac{\sigma}{n}$에 있을 확률은 거의 $1$이라는 의미이다.
그런데 실제 기댓값 $\theta$도 알지 못하는데, 표준편차를 이용하여 $\theta$가 해당 구간안에 있다고 말하는 것은 뭔가 이상하다. (분산, 표준편차는 기댓값으로부터 정의되기 때문이다.)
우선, $X_i \sim Ber(\theta)$인 경우, 분산도 $V(X_i) = \theta(1-\theta)$임을 알 수 있다.
이 경우, 표본비율(sample proportion)을 $\hat{\theta}$라 하면 $\theta$가 존재할 구간은 $\hat{\theta} \pm \sqrt{\cfrac{\hat{\theta}(1-\hat{\theta})}{n}}$ 이다.
이때 사용한 (진짜는 아니지만) $\sigma$는 표준오차(standard error)라고 한다.
이 경우, sample mean에 대한 standard error이므로 standard error of the estimate sample mean이라 하고 $\sigma_{\overline{X}} = \cfrac{\sigma}{\sqrt{n}}$이다.
일반적으로 표준편차를 모르는 경우, 다음 식을 이용하며, 표본표준편차(제곱하면 표본분산)이라 한다. (이렇게 되는 이유는 추정 단원에서 다룬다)
\[ \hat{\sigma} = S =\sqrt{\cfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2} \]