두 확률변수의 관계를 나타내는 공분산(covariance)에 대해 알아보자.
Covariance, 공분산
두 확률변수 $X, Y$의 기댓값을 각각 $\mu_X, \mu_Y$라 할 때, 공분산은 다음과 같이 정의한다.
\[ Cov(X, Y) = E\left[ (X-\mu_X)(Y-\mu_Y) \right] \]
위 식을 전개하여 정리하면, 다음과 동일한 식을 얻을 수 있다.
\[ Cov(X, Y) = E(XY) - E(X)E(Y) \]
Note: 공분산의 값의 범위는 $(-\infty, \infty)$이다.
Note: 공분산은 두 확률변수의 선형 관계(linear relationship)만 파악할 수 있다.
Note: $Cov(X, X) = Var(X)$ 이다.
Linearlity of covariance, 공분산의 선형성
세 확률변수 $X, Y, Z$와 두 실수 $a, b$에 대하여 다음이 성립한다.
\[ Cov(aX + bY, Z) = aCov(X, Z) + bCov(Y, Z) \]
Note: 분배법칙과 비슷하게 계산한다고 생각한다.
Example
\begin{align} Cov(X-Y, X+2Y) &= Cov(X, X) + 2Cov(X, Y) - Cov(Y, X) -2Cov(Y, Y) \\ &= Var(X) + Cov(X, Y)-2Var(Y) \end{align}
\begin{align} Cov(2X+3Y, X-2Y) &= 2Cov(X,X) - 4Coc(X, Y) + 3Cov(Y, X) - 6Cov(Y, Y) \\ &= 2Var(X) - Cov(X, Y) - 6Var(Y) \end{align}
\begin{align} Var(X-2Y) &= Cov(X-2Y, X-2Y) \\ &= Var(X) - 4Cov(X, Y) + 4Var(Y) \end{align}
두 확률변수 $X, Y$가 독립이면, $Cov(X,Y)=0$이다.
Note: 역은 성립하지 않는다.
두 확률변수 $X, Y$가 독립이면 $E(XY)=E(X)E(Y)$이기 때문에 공분산은 $0$이 된다.
확률변수의 합의 분산
두 임의의 확률변수 $X$, $Y$에 대하여
\[ V(X+Y) = V(X)+V(Y)+2Cov(X,Y) \]
$n$개의 확률변수의 합으로 확장하면
\[ V\left( \sum_i X_i \right) = \sum_i V(X_i) + 2\sum_{i<j}Cov(X_i, X_j) \]
만약 두 확률변수가 서로 독립이면
\[ V(X+Y) = V(X)+V(Y) \]
$n$개의 확률변수가 서로 독립이면
\[ V\left( \sum_i X_i \right) = \sum_i V(X_i)\]
만일, 두 확률변수 $X, Y$가 독립이 아니고 $Cov(X, Y) > 0$이라고 하자. 이때 두 확률변수의 차에 대한 분산은
$V(X-Y) = V(X) + V(Y) - 2Cov(X,Y) < V(X) + V(Y)$이다.
즉 paired-comparison problem이 two-sample test의 분산보다 작다는 것이다.
두 확률변수가 독립이 아니라면 함부로 $V(X-Y)$의 값에 $V(X)+V(Y)$를 적용해서는 안된다.
특히 두 집단의 표본평균 추정에서 독립이라는 가정이 없다면, 곧바로 각 확률변수의 분산의 합을 적용해서는 안된다.
다항분포(Multinomial distribution)의 공분산
$k$개의 범주를 갖는 다항분포에 대하여 $n$개의 확률변수는 $(X_1, \dots, X_n) \sim Multinomial(n, \theta_1, \dots, \theta_k)$라 하자.
다항분포에서 $X_i, X_j$는 독립이 아니다. 이때, 다항분포의 공분산은 양수일까? 음수일까?
직관적으로 생각하면, 어떤 범주의 양이 많아지면 다른 범주의 갯수는 작아지므로 음수일 것이다.
이제 식으로 공분산을 직접 구해보자.
$Cov(X_i, X_j) = E(X_iX_j) - E(X_i)E(X_j)$
한편
$\displaystyle E(X_iX_j) = \sum_{x_1 +\cdots x_n=n}x_ix_jP(X_1, \dots, X_n) = \sum x_ix_j\binom{n}{x_1\cdots x_n}\theta_1^{x_1} \cdots \theta^{x_k}$
여기서 $y_i = x_i - 1, y_j = x_j - 1$이라 하면
$\displaystyle E(X_iX_j) = \left[ \sum \binom{n-2}{x_1 \cdots y_i \cdots y_j \cdots x_n}\theta_1^{x_1} \cdots \theta_i^{y_i} \cdots \theta_j^{y_j} \cdots \theta_k^{x_k} \right] \times n(n-1)\theta_i \theta_j = n(n-1)\theta_i \theta_j$
위 식에서 $[ \ ]$안은 다항분포의 pmf의 합이므로 $1$이다.
그리고 각 $X_i \sim B(n, \theta_i)$이므로 공분산을 구하면
\[ Cov(X_i, X_j) = n(n-1)\theta_i \theta_j -n^2\theta_i \theta_j = -n\theta_i \theta_j < 0 \ (i \neq j) \]
따라서 다항분포의 공분산은 항상 음수다.
상관관계
Correlation, 상관관계
두 확률변수 $X, Y$의 상관관계는 다음과 같이 정의한다.
\[ Corr(X, Y) = \cfrac{Cov(X, Y)}{\sigma_X \sigma_Y} \]
Note: 상관관계의 범위는 $[-1, 1]$이다.
Note: 공분산의 두 확률변수의 scale을 정규화 한 값으로 생각할 수 있다.
Correlation of Bivariate Normal Distribution (이변량 정규분포의 상관관계)
$n=1000$, $\mu_1 = \mu_2 = 0$, 그리고 $\sigma_1 = \sigma_2 = 1$이고 상관계수 $\rho$의 값만 바뀌어서 scatter plot을 하면 다음과 같다.
'스터디 > 확률과 통계' 카테고리의 다른 글
조건부 기댓값과 조건부 분산, Conditional Expectation, Conditional Variance, Double Expectation, Law of Total Variance (0) | 2023.04.09 |
---|---|
적률 생성 함수, Moment Generating Function (MGF) (0) | 2023.04.05 |
분산, Variance (0) | 2023.03.30 |
연속확률변수의 기댓값, Expectation of Continuous Case (Uniform, Exponential, Gamma, Normal) (0) | 2023.03.30 |
Order Statistics, 순서통계량 (0) | 2023.03.29 |