본문 바로가기
스터디/확률과 통계

적합도 검정, 독립성 검정 (Goodness of Fit Test, Independence Test)

by 궁금한 준이 2024. 5. 26.
728x90
반응형

Goodness of Fit Test and Independence Test with Contingency Tables

1. One-way Classifications (모형 적합도 검정)

k개의 범주에 대하여 각 범주의 확률을 pi (i=1,2,,k)라 하자.

k개의 범주의 관측값은 각각 x1,x2,,xk이고 x1++xk=n이다.

이를 observed cell frequencies라 한다.

 

null hypothesis는

H0:pi=pi(1ik)

이고 검정통계량은 다음 중 하나를 이용한다. (대부분 카이제곱 이용)

χ2=i=1k(xiei)2ei or G2=2i=1kxiln(xiei)

이때 ei는 expected cell frequency로 ei=npi(1ik) 이다.

 

p-value는 다음과 같이 구한다.

p-value=P(χk12χ2)orp-value=P(χk12G2)

 

size α에 대하여, null hypothesis는 χ2>χα,k12이면 (또는 G2>χα,k12 이면) reject한다.

 

χ2: Pearson chi-square statistic

G2: Likelihood ratio chi-square statistic

ei5보다는 작지 않아야 한다. 만약 5 미만의 ei 값이 있다면, 인접한 ej와 병합(merge)하여 새로운 항으로 대체한다.

 

Example: Testing Distributional Assumptions

H0: 어떤 SW의 error느 평균이 λ=3인 포아송 분포를 따른다.

주어진 데이터는 다음과 같다.

# of errors in SW product dataset

λ=3인 포아송분포의 pmf는 p(x)=e33xx!이므로 expected frequency를 구하면

e1=np(0)=4.23, e2=np(1)=12.70, ... 이다.

이때 X=0,6,7,8 그리고 9이상의 경우 e 값이 5보다 작으므로 5보다 크게 인접한 cell 끼리 합친다. 

Table after grouping

카이제곱값을 계산하면

χ2=(17.0016.93)216.93++(3.007.14)27.14=5.12

merged table에서 범주는 6개이므로 k=6이다. 따라서 degree of freedom은 5이므로

p-value=P(χ525.12)=0.40

p-value가 상당히 크므로, null hypothesis를 기각하지 않는다.

즉, 주어진 데이터는 λ=3인 포아송분포를 따른다고 할 수 있다. (plausible)

 

※ 더 일반적인 방법은 다음과 같다. λ=x¯=2.76이고 자유도가 k11=4인 카이제곱분포에서 p-value를 계산한다.

 

 

2. Two-way Classifications (독립성 검정)

2개의 카테고리에 대하여 독립성을 검정할 것이다. (Testing for Independence)

 

 

예를 들어, Type of Drug에는 A, B, C 3개의 drug level이 있고, Reaction에는 Hyperallergic, Allergic, Mildly allergic, No allergy 이렇게 4개의 level이 있다고 하자.

Drug allergies dataset

이때, 약물(drug)과 반응(reaction) 간의 독립성 검정의 귀무가설은 "세 약물 각각에 대해 다양한 종류의 알러지 반응이 발생할 가능성이 동일하다"로 해석할 수 있다.

Testing for independence

Pearson chi-square statistic (χ2)과 likelihood ratio chi-square statistic (G2)은 다음과 같이 정의한다.

χ2=i=1rj=1c(xijeij)2eijorG2=2i=1rj=1cxijln(xijeij)

 

이때 expected frequency는 eij=x(i,)x(,j)n로 계산한다.

자유도 degree of freedom은 ν=(r1)×(c1)이다.

p-value는 다음과 같이 계산한다.

p-value=P(χv2χ2)orp-value(χv2G2)

 

size α에서 χ2>χα,v2이면 H0을 reject한다.

chi-square statistic calculation for drug allergies dataset

Drug-Allergy 예제에서 χ2=6.391이고 v=(31)×(41)=6이므로 p-value는 P(χ626.391)0.38

p-value가 크기 때문에 null hypothesis를 기각하지 않는다. (do not reject null hypothesis)

따라서 약물에 따른 알러지 반응은 독립적이다. 

728x90
반응형