본문 바로가기
스터디/확률과 통계

공분산과 상관계수, Covariance and Correlation

by 궁금한 준이 2023. 3. 31.
728x90
반응형

 

 

두 확률변수의 관계를 나타내는 공분산(covariance)에 대해 알아보자.

Covariance, 공분산

두 확률변수 $X, Y$의 기댓값을 각각 $\mu_X, \mu_Y$라 할 때, 공분산은 다음과 같이 정의한다.
\[ Cov(X, Y) = E\left[ (X-\mu_X)(Y-\mu_Y) \right] \]
위 식을 전개하여 정리하면, 다음과 동일한 식을 얻을 수 있다.
\[ Cov(X, Y) = E(XY) - E(X)E(Y) \]
Note: 공분산의 값의 범위는 $(-\infty, \infty)$이다.
Note: 공분산은 두 확률변수의 선형 관계(linear relationship)만 파악할 수 있다.
Note: $Cov(X, X) = Var(X)$ 이다.

 

Linearlity of covariance, 공분산의 선형성

세 확률변수 $X, Y, Z$와 두 실수 $a, b$에 대하여 다음이 성립한다.
\[ Cov(aX + bY, Z) = aCov(X, Z) + bCov(Y, Z) \]
Note: 분배법칙과 비슷하게 계산한다고 생각한다.

Example

\begin{align} Cov(X-Y, X+2Y) &= Cov(X, X) + 2Cov(X, Y) - Cov(Y, X) -2Cov(Y, Y) \\ &= Var(X) + Cov(X, Y)-2Var(Y) \end{align}

 

\begin{align} Cov(2X+3Y, X-2Y) &= 2Cov(X,X) - 4Coc(X, Y) + 3Cov(Y, X) - 6Cov(Y, Y) \\ &= 2Var(X) - Cov(X, Y) - 6Var(Y) \end{align}

 

\begin{align} Var(X-2Y) &= Cov(X-2Y, X-2Y) \\ &= Var(X) - 4Cov(X, Y) + 4Var(Y) \end{align}

 

두 확률변수 $X, Y$가 독립이면, $Cov(X,Y)=0$이다.
Note: 역은 성립하지 않는다.

두 확률변수 $X, Y$가 독립이면 $E(XY)=E(X)E(Y)$이기 때문에 공분산은 $0$이 된다.

반응형

확률변수의 합의 분산

두 임의의 확률변수 $X$, $Y$에 대하여
\[ V(X+Y) = V(X)+V(Y)+2Cov(X,Y) \]
$n$개의 확률변수의 합으로 확장하면
\[ V\left( \sum_i X_i \right) = \sum_i V(X_i) + 2\sum_{i<j}Cov(X_i, X_j) \]

만약 두 확률변수가 서로 독립이면
\[ V(X+Y) = V(X)+V(Y) \]
$n$개의 확률변수가 서로 독립이면
\[ V\left( \sum_i X_i \right) = \sum_i V(X_i)\]

만일, 두 확률변수 $X, Y$가 독립이 아니고 $Cov(X, Y) > 0$이라고 하자. 이때 두 확률변수의 차에 대한 분산은

$V(X-Y) = V(X) + V(Y) - 2Cov(X,Y) < V(X) + V(Y)$이다.

즉 paired-comparison problem이 two-sample test의 분산보다 작다는 것이다.

두 확률변수가 독립이 아니라면 함부로 $V(X-Y)$의 값에 $V(X)+V(Y)$를 적용해서는 안된다. 

특히 두 집단의 표본평균 추정에서 독립이라는 가정이 없다면, 곧바로 각 확률변수의 분산의 합을 적용해서는 안된다. 

 

다항분포(Multinomial distribution)의 공분산

$k$개의 범주를 갖는 다항분포에 대하여 $n$개의 확률변수는 $(X_1, \dots, X_n) \sim Multinomial(n, \theta_1, \dots, \theta_k)$라 하자.

다항분포에서 $X_i, X_j$는 독립이 아니다. 이때, 다항분포의 공분산은 양수일까? 음수일까?

직관적으로 생각하면, 어떤 범주의 양이 많아지면 다른 범주의 갯수는 작아지므로 음수일 것이다.

이제 식으로 공분산을 직접 구해보자.

$Cov(X_i, X_j) = E(X_iX_j) - E(X_i)E(X_j)$

한편

$\displaystyle E(X_iX_j) = \sum_{x_1 +\cdots x_n=n}x_ix_jP(X_1, \dots, X_n) = \sum x_ix_j\binom{n}{x_1\cdots x_n}\theta_1^{x_1} \cdots \theta^{x_k}$

여기서 $y_i = x_i - 1, y_j = x_j - 1$이라 하면

$\displaystyle E(X_iX_j) = \left[ \sum \binom{n-2}{x_1 \cdots y_i \cdots y_j \cdots x_n}\theta_1^{x_1} \cdots \theta_i^{y_i} \cdots \theta_j^{y_j} \cdots \theta_k^{x_k} \right] \times n(n-1)\theta_i \theta_j = n(n-1)\theta_i \theta_j$

위 식에서 $[ \ ]$안은 다항분포의 pmf의 합이므로 $1$이다.

 

그리고 각 $X_i \sim B(n, \theta_i)$이므로 공분산을 구하면

\[ Cov(X_i, X_j) = n(n-1)\theta_i \theta_j -n^2\theta_i \theta_j = -n\theta_i \theta_j < 0 \ (i \neq j) \]

따라서 다항분포의 공분산은 항상 음수다.

상관관계

Correlation, 상관관계
두 확률변수 $X, Y$의 상관관계는 다음과 같이 정의한다.
\[ Corr(X, Y) = \cfrac{Cov(X, Y)}{\sigma_X \sigma_Y} \]
Note: 상관관계의 범위는 $[-1, 1]$이다.
Note: 공분산의 두 확률변수의 scale을 정규화 한 값으로 생각할 수 있다.

 

Correlation of Bivariate Normal Distribution (이변량 정규분포의 상관관계)

$n=1000$, $\mu_1 = \mu_2 = 0$, 그리고 $\sigma_1 = \sigma_2 = 1$이고 상관계수 $\rho$의 값만 바뀌어서 scatter plot을 하면 다음과 같다.

$\rho = 0$, $\rho=0.5$, $\rho=0.9$, $\rho=-0.9$인 이변량 정규분포

728x90
반응형