본문 바로가기
스터디/데이터사이언스

[Data Science] Mediator, Moderator

by 궁금한 준이 2023. 5. 15.
728x90
반응형

 

Mediator (intermediate variable, mediating variable, 매개변수)

두 변수 (주로 독립변수와 종속변수)의 관계(이유, 매커니즘 등)를 설명한다.

그러나 매개변수 자체가 인과관계(causality)를 의미하지 않는다. (모델링이 가능하다는 것이다) 

Mediator는 Why, How를 설명한다.

예시로 운동($X$)이 정신건강($Y$)에 미치는 영향에 대한 가설($X \to Y$)을 고려해보자.

그러나 실제로는 자존감이라는 매개변수($Me$)가 운동에 영향을 받고, 자존감이 정신건강에 영향을 주는 모형으로 설명할 수 있다.

 

Mediation Effiect

어떤 변수 $M$이 mediator의 효과가 있는지 알아보기 위해서 3개의 regression이 필요하다.

Three steps to analyze mediation effectsThree steps to analyze mediation effectsThree steps to analyze mediation effects
Three steps to analyze mediation effects

  1. $Y = b_0 + b_1X + e$
  2. $M = b_0 + b_2X + e$
  3. $Y = b_0 + b_3M + b_4X + e$

1단계에서 $b_1$이 significant하다면 (p-value 기반)

2단계는 $b_2$가 significant한지 테스트한다. ($X$가 $M$에 영향을 주는지 확인한다.) 둘의 관계가 없다면 $M$은 mediator가 아니라 제3의 변수이고 $Y$는 $X$의 영향만 받는다고 해석한다.

3단계에서는 $b_4$가 significant한지, 혹은 더 작아졌는지 확인한다. $b_4$의 p-value가 threshold보다 크다면 $X$와 $Y$의 관계가 사라진것으로 판단한다. 

Flowchart of mediation analysis
Flowchart of mediation analysis

Moderator (interaction variable, 조절변수)

두 변수 (주로 독립변수와 종속변수) 의 관계의 강도나 방향을 설명한다.

moderator 자체로는 이유나 매커니즘을 설명하지 못한다.

Moderator는 Strength, Direction을 설명한다.

위의 예시를 그대로 이어서 나이라는 변수를 고려하자. 젊을수록 운동이 정신건강에 미치는 영향을 크지만 나이가 많으면 그렇지 않을 수 있다. 이때 나이는 moderator로서 운동($X$)과 정신건강($Y$)의 관계에 영향을 미친다. 그러나 나이($Mo$) 자체는 운동($X$)과 정신건강($Y$)의 관계가 어떻게, 왜 관련되어있는지는(왜 $X \to Y$인지) 설명하지 못한다.

 

선형관계에서, $X_1 \to Y$에서 $X_2$가 moderator라면 다음과 같이 식을 작성한다.

\[ y = b_0 + b_1 x_1 + b_2 x_2 + b_3(x_1x_2) + \epsilon \]

이 때 $b_3$는 interaction term으로 해석한다.

반응형

 

728x90
반응형