본문 바로가기
스터디/데이터사이언스

[Data Science] Chi-square test. 카이제곱검정

by 궁금한 준이 2023. 4. 20.
728x90
반응형

 

The graphs of chi-square test belong to degree of freedom
카이제곱분포의 그래프

카이제곱검정

목적

동질성 검정과 독립성 검정 두 가지 검정이 가능하다.

 

동질성 검정: 데이터가 이항분포/정규분포와 동일한지 검정.

독립성 검정: 두개 이상의 데이터가 서로 독립인지 검정.

 

이번 포스팅은 독립성 검정에 대하여 다룬다.

 

독립성 검정

범주형 데이터(categorical attribute)에 대하여 두 데이터가 서로 독립인지 확인하는 검정이다.

가설 검정

$H_0$: 두 데이터는 독립이다. (실제 세계에서 서로 다른 두 변수는 독립으로 보는 것이 일반적이다.)

$H_a$: 두 데이터는 독립이 아니다. (서로 상관성이 존재한다.)

 

검정 순서

1. 두 범주형 데이터의 contigency table을 이용하여 Observed value($O_i$)와 Expected value($E_i$)를 구한다.

2. 검정통계량 카이제곱을 구한다. $\chi^2 = \sum_i \frac{(O_i - E_i)^2}{E_i}$

3. 통계량의 자유도를 구한다. $df = (N_{\text{row}}-1)(N_{\text{column}}-1)$

4. 카이제곱분포표에서 3에서 구한 자유도와 유의수준 $\alpha=0.05$에 해당하는 값을 찾는다. $\chi^2_{critical} = \chi^2(df)_{\alpha}$

5. $\chi^2 > \chi^2_{critical}$이면 $H_0$을 기각하고(독립이 아니다) 그렇지 않다면 기각하지 않는다. (독립이다)

 

예제 1

어떤 약의 효능을 검정하기 위해서 위약(placebo)을 사용하려고 한다.

전체 37명의 환자에게 신약과 위약에 대한 증상 향상을 표로 나타내면 아래와 같다. 

이때 치료와 증상의 상관관계가 있는가?

Contigency table of example 1
Contigency Table of Example 1

예제 2

어떤 전자부품 가게에서는 연령에 따른 전자기기의 판매량의 상관관계를 조사하려고 한다.

이때 연령은 65세 미만 집단과 65세 이상의 집단만 존재하고, 전자기기는 마우스와 터치스크린 2가지만 있다고 하자. 

연령에 따른 전자기기의 선호도가 있는가?

Contigency Table of Example 2
Contigency Table of Example 2

 

예제 1 풀이

우선 주어진 표를 이용하여 Expected value 표를 만들어보자. 

Expected value는 (Row) $\times$ (Column) / (Total)이다. 직관적으로 보면 비율에 맞게 골고루 퍼져있으면 그것이 기대되는 수치이다.

예를 들어, 신약의 향상분은 $\cfrac{18 \times 21}{37} = 10.216$이다.

이를 바탕으로 Expected value를 모두 계산하면 아래 표와 같다.

Expected value from contigency table 1
Expected value from contigency table 1

다음으로, 검정통계량이 $\chi^2$을 계산해보자. $\displaystyle\chi^2 = \sum_i \cfrac{(O_i - E_i)^2}{E_i}$이므로

\[ \chi^2 = \cfrac{(13-10.216)^2}{10.216} + \cfrac{(8-10.784)^2}{10.784} + \cfrac{(5-7.784)^2}{7.784} + \cfrac{(11-8.216)^2}{8.216} \approx 3.416  \]

Chi-squared value of example 1
Chi-squared value of example 1

이제 critical value를 찾아보자. 행과 열이 각각 2, 2이므로 자유도는 $df=(2-1)\times(2-1)=1$이다.

카이제곱분포표에서 자유도가 $1$이고 유의수준 $\alpha=0.05$에 해당하는 카이제곱값은 $3.84$이다.

$3.416 < 3.42$이므로 $H_0$을 기각하지 않는다. 따라서 치료와 증상은 서로 독립이다. 

 

예제 2 풀이

주어진 표를 이용하여 기댓값을 계산한 표를 구해보자.

Expected value from contigency table 2
Expected value from contigency table 2

다음으로, 검정통계량이 $\chi^2$을 계산해보자. 

\[ \chi^2 = \cfrac{(14-9)^2}{9} + \cfrac{(5-11)^2}{11} + \cfrac{(4-9)^2}{9} + \cfrac{(16-11)^2}{11} \approx 10.1  \]

Chi-squared value of example 2
Chi-squared value of example 2

이제 critical value를 찾아보자. 행과 열이 각각 2, 2이므로 자유도는 $df=(2-1)\times(2-1)=1$이다.

카이제곱분포표에서 자유도가 $1$이고 유의수준 $\alpha=0.05$에 해당하는 카이제곱값은 $3.84$이다.

$10.1 > 3.84$이므로 $H_0$을 기각한다. 따라서 연령집단에 따른 전자기기의 선호는 상관성이 존재한다.(연령과 전자기기는 독립이 아니다. 연령이 어린 집단이 마우스를, 연령이 많은 그룹이 터치스크린의 선호도가 존재한다.)

 

728x90
반응형