본문 바로가기
스터디/확률과 통계

일원분류 분산분석 (One-Factor ANOVA)

by 궁금한 준이 2024. 6. 1.
728x90
반응형

 

One-Factor Analysis of Variance (ANOVA)

Analysis of Variance (ANOVA)

모집단이 2개의 경우 모평균(또는 모비율)을 비교하는 방법을 다루었다.

이제 모집단이 3개 이상인 경우에 대해 생각해보자.

기본적인 아이디어는 통계적 분석(statistical analysis)이 같은지 확인하는 것이다.

 

여러개의 모집단에서 추출된 독립 표본의 집합을 completely randomized design(완전임의배치법)이라 한다.

그리고 분산분석(analysis of variance, ANOVA)라는 통계적 방법론을 이용한다.

 

모집단이 2개인 경우, pair인지 independent인지 구분하여 검정하였다.

모집단이 3개 이상인 경우에도 비슷한 방식으로 구분한다.

첫번째는 blocking이고 두번째는 randomized block design(랜덤화 블록 설계)이라 부른다.

blocking은 pairing observation의 개념이고, randomized block design은 여러가지 모평균을 blocking과 엮은 

randomized block design은 two-factor ANOVA에서 사용되는 가정이다.

 

※ 이름은 "분산분석"이지만 모집단의 모평균을 비교하는 방법이다. 분산 분석을 통한 모평균 추정법이라고 할 수 있다.

※ 분산 자체에 대한 통계적 검정은 "등분산 검정(분산의 동질성)"이 있다.  

One-Factor Layouts

k개의 모집단이 각각 모평균 μ1,μ2,,μk를 갖는다고 하자.

실험자(experimenter)가 i번째 모집단에서 ni개의 샘플을 추출하고, 그중에서 j번째 값을 관측한 값을 xij로 표기한다. 그리고 전체 데이터셋의 샘플 사이즈는 nT=n1++nk가 된다.

n1,,nk가 같으면 balanced라 하고, unequal하면 unbalanced dataset이라 부른다.

layout for one factor ANOVA

Modeling Assumption

xij는 평균이 μi라 하자. 즉 xij=μi+ϵij이고 error term은 평균이 0이고 분산이 σ2인 정규분포를 따른다. 이를 아래와 같이 표기할 수 있다.

xijN(μi,σ2)1jni

또한 i번째 모집단의 모평균 μi의 point estimator는 다음과 같이 i번째 샘플들의 sample mean으로 정의한다.

μ^i=x¯i=xi1++xinini1ik

 

가설은 다음과 같다.

H0:μ1==μk vs. HA:μiμj for some i and j

Partitioning the Total Sum of Squares

Treatment of Sum of Squares (SSTr)

null hypothesis에서 μi는 모두 동일하기 때문에, μ^i=x¯..가 된다.

따라서 전제 데이터(all of the data observations)는 다음과 같다.

x¯..=n1x¯1.++nkx¯k.nT=x11++xknknT

그러면 산포도(variability)는 다음과 같이 정의할 수 있고 이를 SSTr이라 한다.

SSTr=i=1kni(x¯i.x¯..)2

 

※ textbook에 따라 SSB로 표기하기도 한다. (between)

μ^=x¯..의 가중평균(weighted sum)의 형태이다.

※ SSTr은 k개의 처리 간의 산포도이다. (a measure of the variablity between the factor levels)

 

SSTr을 변형하여 다음과 같이 계산할 수 있다.

SSTr=i=1kni(x¯i.x¯..)2=i=1knix¯i.2i=1knix¯i.x¯..+i=1knix¯..2=i=1knix¯i.22nTx¯..2+nTx¯..2=i=1knix¯i.2nTx¯..2

 

Error Sum of Squares (SSE)

factor-level 내에서의 error도 측정해야한다. 이때의 variability는 sum of squares of error (SSE)라 한다.

SSE=i=1kj=1ni(xijx¯i.)2=i=1kj=1nixij2i=1kj=1nixijx¯i.+i=1kj=1nix¯i.2=i=1kj=1nixij22i=1knix¯i.+i=1knix¯i.2=i=1kj=1nixij2i=1knix¯i.2

 

※ textbook에 따라 SSW로 표기하기도 한다. (within)

※ SSE은 k개의 처리 내의 산포도이다. (a measure of the variablity within the factor levels)

 

Total Sum of Squares (SST)

k개의 factor는 고려하지 않고 크기가 nT인 전체 데이터의 분산은 고려한 값을 SST라 한다.

 

SST=i=1kj=1ni(xijx¯..)2=i=1kj=1nixij22i=1kj=1nixijx¯..+i=1kj=1nix¯..2=i=1kj=1nixij22nTx¯..2+nTx¯..2=i=1kj=1nixij2nTx¯..2

 

※ SST는 전체 표본의 산포도이다. (a measure of the total variablity in the dataset)

※ SST = SSTr + SSE 이다.

※ 일반적으로 SST와 SSTr을 계산하여 SSE를 얻는 편이 편하다. (i=1kj=1nixij2은 전체 데이터의 제곱의 합이므로 계산이 쉽다.)

Analysis of Variance Table

SSTr은 k1의 자유도를 갖는다. 비슷하게, SSE의 자유도는 nTk의 자유도를 갖는다. 

따라서 mean squares for treatment (MSTr)와 mean square error (MSE)는 다음과 같이 정의한다.

MSTr=SSTrk1,MSE=SSEnTk

 

(i) MSE의 자유도는 왜 nTk 인가?

i-th factor level의 분산의 추정량(표본분산)을 si2라 하면

si2=j=1ni(xijx¯i.)2ni1

따라서 SSE=i=1k(ni1)si2이고 (ni1)si2σ2χni12이다.

그리고 카이제곱분포의 합의 자유도는 각 자유도의 합이므로 SSEσ2χnTk2이다.

따라서, MSE=SSEnTk이므로 MSE의 분포는 다음과 같다.

MSEσ2χnTk2nTk

 

카이제곱분포의 기댓값에 따라 E[χν2]=ν이므로 E[MSE]=σ2(nTknTk)=σ2 이다. 그러므로 MSE는 error variance σ2의 불편추정량(unbiased estimator)이다.

 

(ii) SSTr의 자유도는 왜 k1 인가?

SSTr=i=1kni(x¯i.x¯..)2에서 SSTr을 σ2으로 나누면

SSTrσ2=i=1k(x¯i.x¯..)2σ2/ni=i=1k(x¯i.x¯..σ/ni)2χk12

따라서 MSTrσ2χk12k1이고 MSTr의 기댓값은 E[MSTr]=σ2이다.

 

 만약 H0:μ1==μk가 참이라면, F=MSTrMSE=χk12/(k1)χnTk2/(nTk)Fk1,nTk를 따른다. 다르게 말하면, null hypothesis가 참이라면, 검정통계량 FFk1,nTk의 분포를 따른다는 것이다. 이를 바탕으로 p-value를 계산할 수 있다.

p-value=P(XF) where XFk1,nTk, F=MSTrMSE

 

이렇게 계산한 p-value가 작으면 기각(reject)한다. 즉 어떤 factor-level끼리의 평균이 같지 않다는 것이다. (e.g. μ1μ3)

p-value calculation for one-factor ANOVA

 

이 모든 과정을 F-test라 하고, 표로 정리하면 다음과 같다.

one factor ANOVA table

Pairwise Comparisons of the Factor Level Means

위의 과정대로 F-test를 통해 p-value를 계산하고, 그 값이 유의수준 α보다 작아서 reject했다고 하자.

그러면 pairwise로 비교해서 어떤 pair가 얼마나 다른지 확인해야 한다.

 

k가 커질 수록 false positive가 존재할 가능성은 높아지기 때문에 multiple correction이 필요하다.

※ 다양한 방법이 있지만, 여기서는 Tukey-Kramer method만을 다룬다.

※ See also: Multiple Comparison, Scheffé's mehod, Bonferroni correction, False Discover Rate (FDR)

 

1α confidence level의 confidence interval은 다음과 같다.

μi1μi2(x¯i1x¯i2±s qα,k,ν21ni1+1ni2)

이때 qα,k,ν는 critical point, ν=nTk, s=σ^=MSE

 

이렇게 구한 C.I.에 0이 포함되어 있다면, μi1μi2가 unequal하다는 증거가 없다(no evidence)는 뜻이 된다.

 

Sample Size Determination

위에서 구한 신뢰구간을 바탕으로, 표본 수를 구할 수 있다.

L=2sqα,k,ν1ni1+1ni2

 

만약 모든 factor의 샘플 수를 동일하게 할 것이라면, L=2sqα,k,νn이다.

만약 연구자가 특정 L 이하의 신뢰구간을 원한다면, 그때의 n은 다음과 같이 구한다.

n4s2qα,k,ν2L2

728x90
반응형