본문 바로가기
스터디/확률과 통계

중심극한정리 (The Central Limit Theorem, CLT)

by 궁금한 준이 2023. 4. 25.
728x90
반응형

Textbook
Textbook

반응형

 

 

The Central Limit Theorem

The Central Limit Theorem (CLT, 중심극한정리)

X1,X2,가 i.i.d이고 유한한 평균과 분산이 각각 μ, σ2이라 하자. sequence Zn
Zn=n(Xnμσ)
라 하면, Zn은 표준정규분포로 분포수렴한다.
(ZnDZ where ZN(0,1))
Note: 표본표준편차는 σX=σn이므로 Zn=XμσX 으로 표기하는 경우도 있다.
 Note: Xi가 어떤 분포를 따르던지 i.i.d이면 CLT가 성립한다.

 

그런데 직접 σ를 이용하는 대신, σna.s.σ를 이용할 수 있다.

Corollary
Sn=i=1nXi이고 Mn=Sn/n이라 하고
Zn=n(Mnμσn)
이고 limnσna.s.σ라 하자. 그러면
ZnDZ
이다.

Moment를 이용한 증명

Zn=Xμσ/n=X1+X2++Xnnμnσ

Yi=Xiμσ라 하면 E(Yi)=0, Var(Yi)=1이고

Zn=Y1+Y2++Ynn

확률변수의 합의 mgf는 각각의 mgf의 곱과 같으므로

MZn(t)=i=1nMYi=[MY1(t)]n[1+tnE(Y1)+t22nE(Y12)]n=(1+t22n)ne12t2

(Tayler series 근사와 limn(1+c/n)n=ec를 이용함)

이는 N(0,1)의 mgf와 동일하므로 ZnDZ이다.

 

(1) Binomial to Normal

XiBer(θ)이고 X=X1++Xn이라 하자.

E(Xi)=θ, V(Xi)=θ(1θ)

Xn=θ^이고(sample proportion, sample mean) CLT에 의하여

n(θ^θ)θ(1θ)DZN(0,1)

따라서 n이 충분히 크면 XB(n,θ)N(nθ,nθ(1θ)) 이다.

 

Continuity Correction (연속성 수정, correction for continuity)

CLT에 의하여 이산분포를 연속분포로 근사하기에 구간 대응이 완벽하지 않다.

누적분포함수 관점에서 보면 아래와 같다. (X=X1++Xn)

P(Xx)Φ(xnθnθ(1θ))

이 때 x가 속한 구간을 (x0.5, x+0.5)로 조정해주면 좀 더 정확하게 구할 수 있다.

따라서 아래와 같이 수정하여 계산할 수 있다.

P(Xx)=P(Xx+0.5)Φ(x+0.5nθnθ(1θ))

 

Example 

XB(100,0.27)일 때, P(X50)을 구해보자.

이항분포의 pmf를 이용하여 직접 P(X=50)+P(X=51)++P(X=100)을 구할 수 있겠다. (거의 불가능하다)

n이 크기 때문에 CLT를 이용하자.

E(X)=27, V(X)=19.71, Sd(X)=4.44이므로

P(X50)=P(X49.5)P(X274.4449.5274.44)=P(Z5.06)

 

(2) Poisson to Normal

X1Poisson(λ1), X2Poisson(λ2)일 때

X1+X2Poisson(λ1+λ2)임을 mgf을 이용하여 보일 수 있다.

 

이제 XiPoisson(λ/n)이라 하자. (i.i.d를 만족하기 위해)

그리고 X=X1++Xn이라 하면 CLT에 의해 XN(λ, λ) 이다.

 

Assessing Error using CLT

E(X)=θ를 이용하여 X의 값을 추정하였다. 그런데 얼마나 정확한가? (얼마나 신뢰할 수 있는가?)

표준정규분포에서 P(3<Z<3)=0.997임을 이용하면

P(3<n(Xθ)σ<3)1

따라서 θ가 구간 X±3σn에 있을 확률은 거의 1이라는 의미이다.

 

그런데 실제 기댓값 θ도 알지 못하는데, 표준편차를 이용하여 θ가 해당 구간안에 있다고 말하는 것은 뭔가 이상하다. (분산, 표준편차는 기댓값으로부터 정의되기 때문이다.)

 

우선, XiBer(θ)인 경우, 분산도 V(Xi)=θ(1θ)임을 알 수 있다.

이 경우, 표본비율(sample proportion)을 θ^라 하면 θ가 존재할 구간은 θ^±θ^(1θ^)n 이다.

이때 사용한 (진짜는 아니지만) σ는 표준오차(standard error)라고 한다.

이 경우, sample mean에 대한 standard error이므로 standard error of the estimate sample mean이라 하고 σX=σn이다.

 

일반적으로 표준편차를 모르는 경우, 다음 식을 이용하며, 표본표준편차(제곱하면 표본분산)이라 한다. (이렇게 되는 이유는 추정 단원에서 다룬다)

σ^=S=1n1i=1n(XiX)2

 

728x90
반응형