중심극한정리 (The Central Limit Theorem, CLT)

728x90

The Central Limit Theorem

The Central Limit Theorem (CLT, 중심극한정리)

$X_1, X_2, \dots$가 i.i.d이고 유한한 평균과 분산이 각각 $\mu,\ \sigma^2$이라 하자. sequence $Z_n$이
\[ Z_n = \sqrt{n} \left( \cfrac{\overline{X}_n - \mu}{\sigma} \right) \]
라 하면, $Z_n$은 표준정규분포로 분포수렴한다.
($Z_n \overset{D}{\to} Z$ where $Z \sim N(0, 1)$)

Note: 표본표준편차는 $\sigma_{\overline{X}} = \cfrac{\sigma}{\sqrt{n}}$이므로 $Z_n=\cfrac{\overline{X}-\mu}{\sigma_{\overline{X}}}$ 으로 표기하는 경우도 있다.

Note: $X_i$가 어떤 분포를 따르던지 i.i.d이면 CLT가 성립한다.

그런데 직접 $\sigma$를 이용하는 대신, $\sigma_n \overset{\text{a.s.}}{\to} \sigma$를 이용할 수 있다.

Corollary
$S_n = \sum_{i=1}^{n}X_i$이고 $M_n = S_n/n$이라 하고
\[ Z_n^* = \sqrt{n} \left( \cfrac{M_n - \mu}{\sigma_n} \right) \]
이고 $\lim_{n \to \infty}\sigma_n \overset{\text{a.s.}}{\to}\sigma$라 하자. 그러면
\[ Z_n^* \overset{D}{\to}Z \]
이다.

Moment를 이용한 증명

$Z_n = \cfrac{\overline{X}-\mu}{\sigma / \sqrt{n}} = \cfrac{X_1 + X_2 + \cdots + X_n -n\mu}{\sqrt{n}\sigma}$

$Y_i = \cfrac{X_i-\mu}{\sigma}$라 하면 $E(Y_i)=0,\ Var(Y_i)=1$이고

$Z_n = \cfrac{Y_1 + Y_2 + \cdots + Y_n}{n}$

확률변수의 합의 mgf는 각각의 mgf의 곱과 같으므로

$M_{Z_n}(t) = \prod_{i=1}^{n}M_{Y_i} = [M_{Y_1}(t)]^{n} \approx [1 + \frac{t}{\sqrt{n}}E(Y_1) + \frac{t^2}{2n}E(Y_1^2) ]^n=(1+\frac{t^2}{2n})^n \to e^{\frac{1}{2}t^2}$

(Tayler series 근사와 $\displaystyle\lim_{n \to \infty}(1 + c/n)^n = e^c$를 이용함)

이는 $N(0, 1)$의 mgf와 동일하므로 $Z_n \overset{D}{\to}Z$이다.

(1) Binomial to Normal

$X_i \sim Ber(\theta)$이고 $X = X_1 + \cdots + X_n$이라 하자.

$E(X_i)=\theta,\ V(X_i)=\theta (1-\theta)$

$\cfrac{X}{n} = \hat{\theta}$이고(sample proportion, sample mean) CLT에 의하여

\[ \cfrac{\sqrt{n} (\hat{\theta} - \theta)}{\sqrt{\theta(1-\theta)}} \overset{D}{\to} Z \sim N(0, 1) \]

따라서 $n$이 충분히 크면 $X \sim B(n, \theta) \approx N(n\theta, n\theta(1-\theta))$ 이다.

Continuity Correction (연속성 수정, correction for continuity)

CLT에 의하여 이산분포를 연속분포로 근사하기에 구간 대응이 완벽하지 않다.

누적분포함수 관점에서 보면 아래와 같다. ($X = X_1 + \cdots + X_n$)

\[ P(X \le x) \approx \Phi\left(\cfrac{x-n\theta}{\sqrt{n\theta(1-\theta)}}\right) \]

이 때 $x$가 속한 구간을 $(x-0.5,\ x+0.5)$로 조정해주면 좀 더 정확하게 구할 수 있다.

따라서 아래와 같이 수정하여 계산할 수 있다.

\[ P(X \le x) =P(X \le x + 0.5) \approx \Phi\left(\cfrac{x+0.5 -n\theta}{\sqrt{n\theta(1-\theta)}}\right) \]

Example

$X \sim B(100, 0.27)$일 때, $P(X \ge 50)$을 구해보자.

이항분포의 pmf를 이용하여 직접 $P(X=50) + P(X=51) + \cdots + P(X=100)$을 구할 수 있겠다. (거의 불가능하다)

$n$이 크기 때문에 CLT를 이용하자.

$E(X)=27,\ V(X)=19.71,\ Sd(X)=4.44$이므로

$P(X \ge 50) = P(X \ge 49.5) \approx P\left( \cfrac{X-27}{4.44} \ge \cfrac{49.5-27}{4.44} \right) = P(Z \ge 5.06)$

(2) Poisson to Normal

$X_1 \sim Poisson(\lambda_1)$, $X_2 \sim Poisson(\lambda_2)$일 때

$X_1 + X_2 \sim Poisson(\lambda_1 + \lambda_2)$임을 mgf을 이용하여 보일 수 있다.

이제 $X_i \sim Poisson(\lambda/n)$이라 하자. (i.i.d를 만족하기 위해)

그리고 $X = X_1 + \cdots + X_n$이라 하면 CLT에 의해 $X \sim N(\lambda,\ \lambda)$ 이다.

Assessing Error using CLT

$E(X)=\theta$를 이용하여 $\overline{X}$의 값을 추정하였다. 그런데 얼마나 정확한가? (얼마나 신뢰할 수 있는가?)

표준정규분포에서 $P(-3 < Z < 3)=0.997$임을 이용하면

\[ P\left( -3 < \cfrac{\sqrt{n}(\overline{X}-\theta)}{\sigma} < 3 \right) \approx 1 \]

따라서 $\theta$가 구간 $\overline{X} \pm 3\cfrac{\sigma}{n}$에 있을 확률은 거의 $1$이라는 의미이다.

그런데 실제 기댓값 $\theta$도 알지 못하는데, 표준편차를 이용하여 $\theta$가 해당 구간안에 있다고 말하는 것은 뭔가 이상하다. (분산, 표준편차는 기댓값으로부터 정의되기 때문이다.)

우선, $X_i \sim Ber(\theta)$인 경우, 분산도 $V(X_i) = \theta(1-\theta)$임을 알 수 있다.

이 경우, 표본비율(sample proportion)을 $\hat{\theta}$라 하면 $\theta$가 존재할 구간은 $\hat{\theta} \pm \sqrt{\cfrac{\hat{\theta}(1-\hat{\theta})}{n}}$ 이다.

이때 사용한 (진짜는 아니지만) $\sigma$는 표준오차(standard error)라고 한다.

이 경우, sample mean에 대한 standard error이므로 standard error of the estimate sample mean이라 하고 $\sigma_{\overline{X}} = \cfrac{\sigma}{\sqrt{n}}$이다.

일반적으로 표준편차를 모르는 경우, 다음 식을 이용하며, 표본표준편차(제곱하면 표본분산)이라 한다. (이렇게 되는 이유는 추정 단원에서 다룬다)

\[ \hat{\sigma} = S =\sqrt{\cfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2} \]

728x90

'스터디 > 확률과 통계' 카테고리의 다른 글

Ch5. Statistical Inference (0)	2023.05.08
정규분포와 관련된 이론: 카이제곱분포, 표본분산, t-분포, F-분포 (Normal Distribution Theory: Chi-squared distribution, sample variance, t-distribution, F-distribution) (0)	2023.04.26
확률변수의 수렴과 큰 수의 법칙 (Sampling, Convergence, Law of Large Numbers) (0)	2023.04.23
확률에서의 부등식, Inequality (Markov's, Chebychev's, Cauchy-Schwartz, Jensen's, 마르코프, 체비셰프, 코시-슈바르츠, 젠센 부등식) (0)	2023.04.13
조건부 기댓값과 조건부 분산, Conditional Expectation, Conditional Variance, Double Expectation, Law of Total Variance (0)	2023.04.09

궁금한게많은joon

중심극한정리 (The Central Limit Theorem, CLT)

The Central Limit Theorem

Moment를 이용한 증명

(1) Binomial to Normal

Continuity Correction (연속성 수정, correction for continuity)

(2) Poisson to Normal

Assessing Error using CLT

'스터디 > 확률과 통계' 카테고리의 다른 글

티스토리툴바

중심극한정리 (The Central Limit Theorem, CLT)

The Central Limit Theorem

Moment를 이용한 증명

(1) Binomial to Normal

Continuity Correction (연속성 수정, correction for continuity)

(2) Poisson to Normal

Assessing Error using CLT

'스터디 > 확률과 통계' 카테고리의 다른 글

관련글

티스토리툴바