범주형 변수(categorical variables)를 regression model의 input으로 사용할 때 2가지 방법을 고려할 수 있다.
예시로 4개의 범주(초등, 중등, 고등, 초등교육 미만)를 사용한다.
$G = \{ G_1,\ G_2,\ G_3,\ G_4 \}$
$G_1$: Primary
$G_2$: Secondary
$G_3$: Post-secondary
$G_4$: Less than primary
Dummy coding
4개의 범주에 대하여 해당 범주면 1, 아니면 0으로 할당하는 방법을 생각할 수 있다.
이때 마지막 범주의 경우 모두 0으로 표현하면 $k$개의 범주에 대하여 길이가 $(k-1)$개의 더미만 필요하다.
Note: One-hot encoding은 $k$개의 범주를 $k$개의 더미 변수로 인코딩한것이다.
아래는 더미코딩을 사용한 예시이다.
이렇게 함으로써 $G_i (i=1,2 ,3)$와 $G_4$(모두 0으로 인코딩된 범주)를 비교한다.
다음과 같은 선형회귀식에 대하여 계수를 해석해보자. ($y$를 연봉이라 하자)
\[ y = w_0 + w_1 x_1 + w_2 x_2 + w_3 x_3 \]
각 범주마다 평균연봉 ($\overline{y}$)을 계산해보면 다음과 같다. $f(x)$에 더비 변수를 대입하면 된다.
- $X_4$: $\hat{w_0}$
- $X_1$: $\hat{w_0} + \hat{w_1}$
- $X_2$: $\hat{w_0} + \hat{w_2}$
- $X_3$: $\hat{w_0} + \hat{w_3}$
$X_4$와 $X_1$와의 차이는 $w_1$이다.
$X_4$와 $X_2$와의 차이는 $w_2$이다.
$X_4$와 $X_3$와의 차이는 $w_3$이다.
Effect coding
더미 코딩과 비슷하지만 마지막 범주를 $[0,\ 0,\ 0]$이 아니라 $[-1,\ -1,\ -1]$로 인코딩한다.
이 경우 $[0, 0, 0]$은 전체 범주 $G$를 나타낸다.
이렇게 함으로써 $G_i (i=1,2,3)$와 $G$(전체 Education level)를 비교한다.
'스터디 > 데이터사이언스' 카테고리의 다른 글
[Data Science] K-Nearest Neighbor (k-NN, Lazy Learning, k-최근접 이웃) (0) | 2023.06.10 |
---|---|
[Data Science] Mediator, Moderator (0) | 2023.05.15 |
[Data Science] Logistic Regression (0) | 2023.05.14 |
[Data Science] Linear Regression (0) | 2023.05.12 |
[Data Science] Bayesian Classifier (0) | 2023.05.03 |