본문 바로가기
스터디/데이터사이언스

Dummy coding, Effect Coding

by 궁금한 준이 2023. 5. 15.
728x90
반응형

 

범주형 변수(categorical variables)를 regression model의 input으로 사용할 때 2가지 방법을 고려할 수 있다.

예시로 4개의 범주(초등, 중등, 고등, 초등교육 미만)를 사용한다.

 

G={G1, G2, G3, G4}

G1: Primary

G2: Secondary

G3: Post-secondary

G4: Less than primary

Dummy coding

4개의 범주에 대하여 해당 범주면 1, 아니면 0으로 할당하는 방법을 생각할 수 있다.

이때 마지막 범주의 경우 모두 0으로 표현하면 k개의 범주에 대하여 길이가 (k1)개의 더미만 필요하다.

 

Note: One-hot encoding은 k개의 범주를 k개의 더미 변수로 인코딩한것이다.

 

아래는 더미코딩을 사용한 예시이다.

Dummy coding for a factor of 4 groups
Dummy coding for a factor of 4 groups

이렇게 함으로써 Gi(i=1,2,3)G4(모두 0으로 인코딩된 범주)를 비교한다.

 

다음과 같은 선형회귀식에 대하여 계수를 해석해보자. (y를 연봉이라 하자)

y=w0+w1x1+w2x2+w3x3

 

각 범주마다 평균연봉 (y)을 계산해보면 다음과 같다. f(x)에 더비 변수를 대입하면 된다.

  • X4: w0^
  • X1: w0^+w1^
  • X2: w0^+w2^
  • X3: w0^+w3^

 

X4X1와의 차이는 w1이다.

X4X2와의 차이는 w2이다.

X4X3와의 차이는 w3이다.

Effect coding

더미 코딩과 비슷하지만 마지막 범주를 [0, 0, 0]이 아니라 [1, 1, 1]로 인코딩한다.

이 경우 [0,0,0]은 전체 범주 G를 나타낸다.

이렇게 함으로써 Gi(i=1,2,3)G(전체 Education level)를 비교한다.

Effect coding for a factor of 4 groups
Effect coding for a factor of 4 groups

 

728x90
반응형