본문 바로가기
스터디/확률과 통계

정규분포와 관련된 이론: 카이제곱분포, 표본분산, t-분포, F-분포 (Normal Distribution Theory: Chi-squared distribution, sample variance, t-distribution, F-distribution)

by 궁금한 준이 2023. 4. 26.
728x90
반응형
반응형

 

Textbook
Textbook

Normal Distribution Theory

정규분포를 따르는 2개의 확률변수의 합은 정규분포임을 알 수 있었다.

이제 이를 확장해서 n개의 확률변수의 합도 정규분포를 따르는지 알아보자.

n개의 확률변수 XiN(μi,σi2)의 합을 Y=(iaiXi)+b라 하면
Y((iaiμi)+b, iai2σi2))

Proof

mgf를 이용하여 증명한다.

확률변수의 합의 mgf는 각 확률변수의 mgf의 곱과 같으므로

MY(t)=ΠiMXi(t)=ebtexp[i(aiμi)t+Πi(aiσi)2t2]=exp[(i(aiμi)+b)t+12(Πi(aiσi)2)t2]

 

Zero covariance is equivalent to independence

i=1naiXii=1nbiXii=1naibiσi2=0

Proof

X=[X1,,Xn], a=[a1,,an], b=[b1,,bn] 이라 하고

새로운 확률변수 V, W를 다음과 같이 정의하자.

V=iaiXi=aX

W=ibiXi=bX

한편, 공분산은

Cov(V,W)=abσ2

두 벡터 V, W가 독립이면

VW iif ab=0

 

이는 (X가 정규분포의 확률변수일 때) orthogonality가 statistical independence를 의미한다. 

 

The Chi-squared Distribution

X1,,XnN(0,1)의 i.i.d라 할 때 Y=i=1nXi2이라 하면
Y=i=1nXi2χ2(n)=Γ(n2,12)
이다. 이 때 n은 카이제곱분포의 자유도(degrees of freedom)이라 한다.

카이제곱분포의 기댓값과 분산

Γ(α,λ)의 기댓값과 분산이 각각 α/λ, α/λ2이므로

E(Y)=(n/2)/(1/2)=n,V(Y)=(n/2)/(1/2)2=2n 이다.

 

n이 충분히 크면 χ2(n)N(n,2n) 이다.

 

카이제곱분포의 합

독립인 두 확률변수 UΓ(α,λ),VΓ(β,λ)에 대하여

U+VΓ(α+β,λ)이므로

독립인 두 카이제곱분포의 확률변수의 합은 자유도의 합과 같다. 즉

Yχ2(n),Zχ2(m)이면 Y+Zχ2(n+m)

 

표본평균과 표본분산

X1,,XnN(μ,σ2)의 i.i.d라 할 때 표본평균과 표본분산을 각각 X,S2이라 하고
X=1ni=1nXi
S2=1n1i=1n(XiX)2

그리고 아래 두가지를 만족한다.
XS2
(n1)S2/σ2χ2(n1)

Why 

https://www2.stat.duke.edu/courses/Fall18/sta611.01/Lecture/lec12_mean_var_indep.pdf

https://trivia-starage.tistory.com/250

 

표본분산은 왜 n-1로 나눌까? (불편추정량, 자유도)

표본분산은 왜 n이 아니라 n-1로 나눌까?Notationμ: 모평균 (모집단의 평균, 우리는 알 수 없다.)σ2: 모분산 (모집단의 분산, 우리는 알 수 없다.)X1,X2,,Xn: 평균이 μ이고 분산이 $\sig

trivia-starage.tistory.com

 

 

표본 분산

E[i=1n(XiX)2]=E[i=1nXi2nX2]=nE(X12)nE(X)=n{V(X1)+E(X1)2}n{V(X)+E(X)}=n(σ2+μ2)n(σ2n+μ2)=(n1)σ2

따라서 E(S2)=E[1n1i(XiX)2]=σ2 이다. 

 

Chapter 5에 나오지만, 위 성질 때문에 S2은 (분포와 상관없이) σ2의 불편추정량(unbiased estimator)이다.

The t Distribution

ZN(0,1)이고 Wχ2(n)이고 ZW 라고 하자. 그러면
T=ZW/nt(n)
이다. 
Note: 독립 조건이 필요하다.

t-distribution with degrees of freedom is 1 and 30
자유도가 1과 30인 t분포

 

Example 

i.i.d인 X1,X2,X3N(μ,σ2)에 대하여 Z=X1μσ, W=(X2μσ)2+(X3μσ)2라 하자.

그러면 T=ZW/2t(2)이다.

 

표본평균과 t 분포

i.i.d인 X1,,XnN(μ,σ2)라 하자. 그러면

Z=Xμσ/nN(0,1)이고

(n1)S2σ2χ2(n1)이고 이 둘은 독립이다. (위 내용 참고)

따라서 T를 다음과 같이 정의할 수 있다.

T=Xμσ/n(n1)S2σ2/(n1)=XμS/nt(n1) 이다.

 

t분포의 표준정규분포 근사

n이 충분히 크면 t(n)Z(0,1)이다.

 

The F Distribution

두 카이제곱 확률변수 Wχ2(m)Vχ2(n)이고 WV 이라 하면
Y=W/mV/nF(m,n)
이다.

The density of F-distribution with F(2,1) and F(3, 10)
F분포의 그래프

t분포와 F분포

만약 Xt(n)이라면 X2F(1,n) 이다.

 

proof

t2=(ZW/df)2=χ2(1)/1W/df=DF(1,n)

728x90
반응형