본문 바로가기
스터디/데이터사이언스

Dummy coding, Effect Coding

by 궁금한 준이 2023. 5. 15.
728x90
반응형

 

범주형 변수(categorical variables)를 regression model의 input으로 사용할 때 2가지 방법을 고려할 수 있다.

예시로 4개의 범주(초등, 중등, 고등, 초등교육 미만)를 사용한다.

 

$G = \{ G_1,\ G_2,\ G_3,\ G_4 \}$

$G_1$: Primary

$G_2$: Secondary

$G_3$: Post-secondary

$G_4$: Less than primary

Dummy coding

4개의 범주에 대하여 해당 범주면 1, 아니면 0으로 할당하는 방법을 생각할 수 있다.

이때 마지막 범주의 경우 모두 0으로 표현하면 $k$개의 범주에 대하여 길이가 $(k-1)$개의 더미만 필요하다.

 

Note: One-hot encoding은 $k$개의 범주를 $k$개의 더미 변수로 인코딩한것이다.

 

아래는 더미코딩을 사용한 예시이다.

Dummy coding for a factor of 4 groups
Dummy coding for a factor of 4 groups

이렇게 함으로써 $G_i (i=1,2 ,3)$와 $G_4$(모두 0으로 인코딩된 범주)를 비교한다.

 

다음과 같은 선형회귀식에 대하여 계수를 해석해보자. ($y$를 연봉이라 하자)

\[ y = w_0 + w_1 x_1 + w_2 x_2 + w_3 x_3 \]

 

각 범주마다 평균연봉 ($\overline{y}$)을 계산해보면 다음과 같다. $f(x)$에 더비 변수를 대입하면 된다.

  • $X_4$: $\hat{w_0}$
  • $X_1$: $\hat{w_0} + \hat{w_1}$
  • $X_2$: $\hat{w_0} + \hat{w_2}$
  • $X_3$: $\hat{w_0} + \hat{w_3}$

 

$X_4$와 $X_1$와의 차이는 $w_1$이다.

$X_4$와 $X_2$와의 차이는 $w_2$이다.

$X_4$와 $X_3$와의 차이는 $w_3$이다.

Effect coding

더미 코딩과 비슷하지만 마지막 범주를 $[0,\ 0,\ 0]$이 아니라 $[-1,\ -1,\ -1]$로 인코딩한다.

이 경우 $[0, 0, 0]$은 전체 범주 $G$를 나타낸다.

이렇게 함으로써 $G_i (i=1,2,3)$와 $G$(전체 Education level)를 비교한다.

Effect coding for a factor of 4 groups
Effect coding for a factor of 4 groups

 

728x90
반응형