Dummy coding, Effect Coding

728x90

범주형 변수(categorical variables)를 regression model의 input으로 사용할 때 2가지 방법을 고려할 수 있다.

예시로 4개의 범주(초등, 중등, 고등, 초등교육 미만)를 사용한다.

$G = {G_{1}, G_{2}, G_{3}, G_{4}}$

$G_{1}$ : Primary

$G_{2}$ : Secondary

$G_{3}$ : Post-secondary

$G_{4}$ : Less than primary

Dummy coding

4개의 범주에 대하여 해당 범주면 1, 아니면 0으로 할당하는 방법을 생각할 수 있다.

이때 마지막 범주의 경우 모두 0으로 표현하면 $k$ 개의 범주에 대하여 길이가 $(k - 1)$ 개의 더미만 필요하다.

Note: One-hot encoding은 $k$ 개의 범주를 $k$ 개의 더미 변수로 인코딩한것이다.

아래는 더미코딩을 사용한 예시이다.

이렇게 함으로써 $G_{i} (i = 1, 2, 3)$ 와 $G_{4}$ (모두 0으로 인코딩된 범주)를 비교한다.

다음과 같은 선형회귀식에 대하여 계수를 해석해보자. ( $y$ 를 연봉이라 하자)

$y = w_{0} + w_{1} x_{1} + w_{2} x_{2} + w_{3} x_{3}$

각 범주마다 평균연봉 ( $\overset{―}{y}$ )을 계산해보면 다음과 같다. $f (x)$ 에 더비 변수를 대입하면 된다.

$X_{4}$ : $\hat{w_{0}}$
$X_{1}$ : $\hat{w_{0}} + \hat{w_{1}}$
$X_{2}$ : $\hat{w_{0}} + \hat{w_{2}}$
$X_{3}$ : $\hat{w_{0}} + \hat{w_{3}}$

$X_{4}$ 와 $X_{1}$ 와의 차이는 $w_{1}$ 이다.

$X_{4}$ 와 $X_{2}$ 와의 차이는 $w_{2}$ 이다.

$X_{4}$ 와 $X_{3}$ 와의 차이는 $w_{3}$ 이다.

Effect coding

더미 코딩과 비슷하지만 마지막 범주를 $[0, 0, 0]$ 이 아니라 $[- 1, - 1, - 1]$ 로 인코딩한다.

이 경우 $[0, 0, 0]$ 은 전체 범주 $G$ 를 나타낸다.

이렇게 함으로써 $G_{i} (i = 1, 2, 3)$ 와 $G$ (전체 Education level)를 비교한다.

728x90

'스터디 > 데이터사이언스' 카테고리의 다른 글

[Data Science] K-Nearest Neighbor (k-NN, Lazy Learning, k-최근접 이웃) (0)	2023.06.10
[Data Science] Mediator, Moderator (0)	2023.05.15
[Data Science] Logistic Regression (0)	2023.05.14
[Data Science] Linear Regression (0)	2023.05.12
[Data Science] Bayesian Classifier (0)	2023.05.03

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

궁금한게많은joon

Dummy coding, Effect Coding

Dummy coding

Effect coding

'스터디 > 데이터사이언스' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Dummy coding, Effect Coding

Dummy coding

Effect coding

'스터디 > 데이터사이언스' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역