Mediator (intermediate variable, mediating variable, 매개변수)
두 변수 (주로 독립변수와 종속변수)의 관계(이유, 매커니즘 등)를 설명한다.
그러나 매개변수 자체가 인과관계(causality)를 의미하지 않는다. (모델링이 가능하다는 것이다)
예시로 운동($X$)이 정신건강($Y$)에 미치는 영향에 대한 가설($X \to Y$)을 고려해보자.
그러나 실제로는 자존감이라는 매개변수($Me$)가 운동에 영향을 받고, 자존감이 정신건강에 영향을 주는 모형으로 설명할 수 있다.
Mediation Effiect
어떤 변수 $M$이 mediator의 효과가 있는지 알아보기 위해서 3개의 regression이 필요하다.
- $Y = b_0 + b_1X + e$
- $M = b_0 + b_2X + e$
- $Y = b_0 + b_3M + b_4X + e$
1단계에서 $b_1$이 significant하다면 (p-value 기반)
2단계는 $b_2$가 significant한지 테스트한다. ($X$가 $M$에 영향을 주는지 확인한다.) 둘의 관계가 없다면 $M$은 mediator가 아니라 제3의 변수이고 $Y$는 $X$의 영향만 받는다고 해석한다.
3단계에서는 $b_4$가 significant한지, 혹은 더 작아졌는지 확인한다. $b_4$의 p-value가 threshold보다 크다면 $X$와 $Y$의 관계가 사라진것으로 판단한다.
Moderator (interaction variable, 조절변수)
두 변수 (주로 독립변수와 종속변수) 의 관계의 강도나 방향을 설명한다.
moderator 자체로는 이유나 매커니즘을 설명하지 못한다.
위의 예시를 그대로 이어서 나이라는 변수를 고려하자. 젊을수록 운동이 정신건강에 미치는 영향을 크지만 나이가 많으면 그렇지 않을 수 있다. 이때 나이는 moderator로서 운동($X$)과 정신건강($Y$)의 관계에 영향을 미친다. 그러나 나이($Mo$) 자체는 운동($X$)과 정신건강($Y$)의 관계가 어떻게, 왜 관련되어있는지는(왜 $X \to Y$인지) 설명하지 못한다.
선형관계에서, $X_1 \to Y$에서 $X_2$가 moderator라면 다음과 같이 식을 작성한다.
\[ y = b_0 + b_1 x_1 + b_2 x_2 + b_3(x_1x_2) + \epsilon \]
이 때 $b_3$는 interaction term으로 해석한다.
'스터디 > 데이터사이언스' 카테고리의 다른 글
[CS246] MapReduce (0) | 2023.09.08 |
---|---|
[Data Science] K-Nearest Neighbor (k-NN, Lazy Learning, k-최근접 이웃) (0) | 2023.06.10 |
Dummy coding, Effect Coding (0) | 2023.05.15 |
[Data Science] Logistic Regression (0) | 2023.05.14 |
[Data Science] Linear Regression (0) | 2023.05.12 |