본문 바로가기
스터디/확률과 통계

공분산과 상관계수, Covariance and Correlation

by 궁금한 준이 2023. 3. 31.
728x90
반응형

 

 

두 확률변수의 관계를 나타내는 공분산(covariance)에 대해 알아보자.

Covariance, 공분산

두 확률변수 X,Y의 기댓값을 각각 μX,μY라 할 때, 공분산은 다음과 같이 정의한다.
Cov(X,Y)=E[(XμX)(YμY)]
위 식을 전개하여 정리하면, 다음과 동일한 식을 얻을 수 있다.
Cov(X,Y)=E(XY)E(X)E(Y)
Note: 공분산의 값의 범위는 (,)이다.
Note: 공분산은 두 확률변수의 선형 관계(linear relationship)만 파악할 수 있다.
Note: Cov(X,X)=Var(X) 이다.

 

Linearlity of covariance, 공분산의 선형성

세 확률변수 X,Y,Z와 두 실수 a,b에 대하여 다음이 성립한다.
Cov(aX+bY,Z)=aCov(X,Z)+bCov(Y,Z)
Note: 분배법칙과 비슷하게 계산한다고 생각한다.

Example

Cov(XY,X+2Y)=Cov(X,X)+2Cov(X,Y)Cov(Y,X)2Cov(Y,Y)=Var(X)+Cov(X,Y)2Var(Y)

 

Cov(2X+3Y,X2Y)=2Cov(X,X)4Coc(X,Y)+3Cov(Y,X)6Cov(Y,Y)=2Var(X)Cov(X,Y)6Var(Y)

 

Var(X2Y)=Cov(X2Y,X2Y)=Var(X)4Cov(X,Y)+4Var(Y)

 

두 확률변수 X,Y가 독립이면, Cov(X,Y)=0이다.
Note: 역은 성립하지 않는다.

두 확률변수 X,Y가 독립이면 E(XY)=E(X)E(Y)이기 때문에 공분산은 0이 된다.

반응형

확률변수의 합의 분산

두 임의의 확률변수 X, Y에 대하여
V(X+Y)=V(X)+V(Y)+2Cov(X,Y)
n개의 확률변수의 합으로 확장하면
V(iXi)=iV(Xi)+2i<jCov(Xi,Xj)

만약 두 확률변수가 서로 독립이면
V(X+Y)=V(X)+V(Y)
n개의 확률변수가 서로 독립이면
V(iXi)=iV(Xi)

만일, 두 확률변수 X,Y가 독립이 아니고 Cov(X,Y)>0이라고 하자. 이때 두 확률변수의 차에 대한 분산은

V(XY)=V(X)+V(Y)2Cov(X,Y)<V(X)+V(Y)이다.

즉 paired-comparison problem이 two-sample test의 분산보다 작다는 것이다.

두 확률변수가 독립이 아니라면 함부로 V(XY)의 값에 V(X)+V(Y)를 적용해서는 안된다. 

특히 두 집단의 표본평균 추정에서 독립이라는 가정이 없다면, 곧바로 각 확률변수의 분산의 합을 적용해서는 안된다. 

 

다항분포(Multinomial distribution)의 공분산

k개의 범주를 갖는 다항분포에 대하여 n개의 확률변수는 (X1,,Xn)Multinomial(n,θ1,,θk)라 하자.

다항분포에서 Xi,Xj는 독립이 아니다. 이때, 다항분포의 공분산은 양수일까? 음수일까?

직관적으로 생각하면, 어떤 범주의 양이 많아지면 다른 범주의 갯수는 작아지므로 음수일 것이다.

이제 식으로 공분산을 직접 구해보자.

Cov(Xi,Xj)=E(XiXj)E(Xi)E(Xj)

한편

E(XiXj)=x1+xn=nxixjP(X1,,Xn)=xixj(nx1xn)θ1x1θxk

여기서 yi=xi1,yj=xj1이라 하면

E(XiXj)=[(n2x1yiyjxn)θ1x1θiyiθjyjθkxk]×n(n1)θiθj=n(n1)θiθj

위 식에서 [ ]안은 다항분포의 pmf의 합이므로 1이다.

 

그리고 각 XiB(n,θi)이므로 공분산을 구하면

Cov(Xi,Xj)=n(n1)θiθjn2θiθj=nθiθj<0 (ij)

따라서 다항분포의 공분산은 항상 음수다.

상관관계

Correlation, 상관관계
두 확률변수 X,Y의 상관관계는 다음과 같이 정의한다.
Corr(X,Y)=Cov(X,Y)σXσY
Note: 상관관계의 범위는 [1,1]이다.
Note: 공분산의 두 확률변수의 scale을 정규화 한 값으로 생각할 수 있다.

 

Correlation of Bivariate Normal Distribution (이변량 정규분포의 상관관계)

n=1000, μ1=μ2=0, 그리고 σ1=σ2=1이고 상관계수 ρ의 값만 바뀌어서 scatter plot을 하면 다음과 같다.

ρ=0, ρ=0.5, ρ=0.9, ρ=0.9인 이변량 정규분포

728x90
반응형