728x90
반응형
범주형 변수(categorical variables)를 regression model의 input으로 사용할 때 2가지 방법을 고려할 수 있다.
예시로 4개의 범주(초등, 중등, 고등, 초등교육 미만)를 사용한다.
Dummy coding
4개의 범주에 대하여 해당 범주면 1, 아니면 0으로 할당하는 방법을 생각할 수 있다.
이때 마지막 범주의 경우 모두 0으로 표현하면
Note: One-hot encoding은개의 범주를 개의 더미 변수로 인코딩한것이다.
아래는 더미코딩을 사용한 예시이다.

이렇게 함으로써
다음과 같은 선형회귀식에 대하여 계수를 해석해보자. (
각 범주마다 평균연봉 (
: : : :
Effect coding
더미 코딩과 비슷하지만 마지막 범주를
이 경우
이렇게 함으로써

728x90
반응형
'스터디 > 데이터사이언스' 카테고리의 다른 글
[Data Science] K-Nearest Neighbor (k-NN, Lazy Learning, k-최근접 이웃) (0) | 2023.06.10 |
---|---|
[Data Science] Mediator, Moderator (0) | 2023.05.15 |
[Data Science] Logistic Regression (0) | 2023.05.14 |
[Data Science] Linear Regression (0) | 2023.05.12 |
[Data Science] Bayesian Classifier (0) | 2023.05.03 |