카이제곱검정
목적
동질성 검정과 독립성 검정 두 가지 검정이 가능하다.
동질성 검정: 데이터가 이항분포/정규분포와 동일한지 검정.
독립성 검정: 두개 이상의 데이터가 서로 독립인지 검정.
이번 포스팅은 독립성 검정에 대하여 다룬다.
독립성 검정
범주형 데이터(categorical attribute)에 대하여 두 데이터가 서로 독립인지 확인하는 검정이다.
가설 검정
$H_0$: 두 데이터는 독립이다. (실제 세계에서 서로 다른 두 변수는 독립으로 보는 것이 일반적이다.)
$H_a$: 두 데이터는 독립이 아니다. (서로 상관성이 존재한다.)
검정 순서
1. 두 범주형 데이터의 contigency table을 이용하여 Observed value($O_i$)와 Expected value($E_i$)를 구한다.
2. 검정통계량 카이제곱을 구한다. $\chi^2 = \sum_i \frac{(O_i - E_i)^2}{E_i}$
3. 통계량의 자유도를 구한다. $df = (N_{\text{row}}-1)(N_{\text{column}}-1)$
4. 카이제곱분포표에서 3에서 구한 자유도와 유의수준 $\alpha=0.05$에 해당하는 값을 찾는다. $\chi^2_{critical} = \chi^2(df)_{\alpha}$
5. $\chi^2 > \chi^2_{critical}$이면 $H_0$을 기각하고(독립이 아니다) 그렇지 않다면 기각하지 않는다. (독립이다)
예제 1
어떤 약의 효능을 검정하기 위해서 위약(placebo)을 사용하려고 한다.
전체 37명의 환자에게 신약과 위약에 대한 증상 향상을 표로 나타내면 아래와 같다.
이때 치료와 증상의 상관관계가 있는가?
예제 2
어떤 전자부품 가게에서는 연령에 따른 전자기기의 판매량의 상관관계를 조사하려고 한다.
이때 연령은 65세 미만 집단과 65세 이상의 집단만 존재하고, 전자기기는 마우스와 터치스크린 2가지만 있다고 하자.
연령에 따른 전자기기의 선호도가 있는가?
예제 1 풀이
우선 주어진 표를 이용하여 Expected value 표를 만들어보자.
Expected value는 (Row) $\times$ (Column) / (Total)이다. 직관적으로 보면 비율에 맞게 골고루 퍼져있으면 그것이 기대되는 수치이다.
예를 들어, 신약의 향상분은 $\cfrac{18 \times 21}{37} = 10.216$이다.
이를 바탕으로 Expected value를 모두 계산하면 아래 표와 같다.
다음으로, 검정통계량이 $\chi^2$을 계산해보자. $\displaystyle\chi^2 = \sum_i \cfrac{(O_i - E_i)^2}{E_i}$이므로
\[ \chi^2 = \cfrac{(13-10.216)^2}{10.216} + \cfrac{(8-10.784)^2}{10.784} + \cfrac{(5-7.784)^2}{7.784} + \cfrac{(11-8.216)^2}{8.216} \approx 3.416 \]
이제 critical value를 찾아보자. 행과 열이 각각 2, 2이므로 자유도는 $df=(2-1)\times(2-1)=1$이다.
카이제곱분포표에서 자유도가 $1$이고 유의수준 $\alpha=0.05$에 해당하는 카이제곱값은 $3.84$이다.
$3.416 < 3.42$이므로 $H_0$을 기각하지 않는다. 따라서 치료와 증상은 서로 독립이다.
예제 2 풀이
주어진 표를 이용하여 기댓값을 계산한 표를 구해보자.
다음으로, 검정통계량이 $\chi^2$을 계산해보자.
\[ \chi^2 = \cfrac{(14-9)^2}{9} + \cfrac{(5-11)^2}{11} + \cfrac{(4-9)^2}{9} + \cfrac{(16-11)^2}{11} \approx 10.1 \]
이제 critical value를 찾아보자. 행과 열이 각각 2, 2이므로 자유도는 $df=(2-1)\times(2-1)=1$이다.
카이제곱분포표에서 자유도가 $1$이고 유의수준 $\alpha=0.05$에 해당하는 카이제곱값은 $3.84$이다.
$10.1 > 3.84$이므로 $H_0$을 기각한다. 따라서 연령집단에 따른 전자기기의 선호는 상관성이 존재한다.(연령과 전자기기는 독립이 아니다. 연령이 어린 집단이 마우스를, 연령이 많은 그룹이 터치스크린의 선호도가 존재한다.)
'스터디 > 데이터사이언스' 카테고리의 다른 글
[Data Science] Decision Tree in R (0) | 2023.04.28 |
---|---|
[Data Science] Missing Values (0) | 2023.04.21 |
[Data Science] Association Rule Mining - Excercises (0) | 2023.04.17 |
[Data Science] Decision Tree - GINI index와 CART 알고리즘 (0) | 2023.04.16 |
[Data Science] The classification and decision tree (0) | 2023.04.15 |