본문 바로가기
스터디/확률과 통계

표본분산은 왜 n-1로 나눌까? (불편추정량, 자유도)

by 궁금한 준이 2024. 5. 21.
728x90
반응형

 

 

표본분산은 왜 n이 아니라 n-1로 나눌까?

Generated by GPT-4

Notation

$\mu$: 모평균 (모집단의 평균, 우리는 알 수 없다.)

$\sigma^2$: 모분산 (모집단의 분산, 우리는 알 수 없다.)

$X_1, X_2, \dots, X_n$: 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단(정규분포일 필요는 없다.)에서 i.i.d(독립항등분포) 샘플링한 확률변수.

$\overline{X}$: 표본평균 (sample mean)

$E(X)$: 기댓값. $E[X] = \mu$

$Var(\cdot)$: 분산, $Var(X) = E[(X - E[X])^2] = E[X^2] - E[X]^2$

 

표본평균의 통계량

표본평균의 평균, $E[\overline{X}]$

$\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$이므로

 

\begin{align} E(\overline{X}) &= E\left( \frac{1}{n} (X_1 + \cdots + X_n) \right) \\ &= \frac{1}{n} (n \mu) \\ &= \mu \end{align}

 

표본평균의 분산($\neq$ 표본분산)

$X_i$가 서로 독립이므로 분산의 정의 대신에, linear combination을 이용하여 편하게 계산한다.

\begin{align} Var(\overline{X}) &= Var \left( \frac{1}{n} (X_1+\cdots + X_n) \right) \\ &= \frac{1}{n^2} (n \sigma^2) \\ &= \frac{\sigma^2}{n} \end{align}

 

왜 $n$으로 나누지 않는가에 대한 직관적 설명

우선, 왜 $n-1$이 맞는 방식은 제쳐두고, 왜 $n$이 아닌지에 대해 간단히 설명한다.

크기가 $n$인 표본에서 얻은 표본평균을 $\bar{X}$라 하자.

 

$\sum_{i=1}^{n} (X_i - k)^2$이 최소가 되는 $k$를 $k^*$라 하자.

$f(k) = \sum_{i=1}^{n} (X_i - k)^2$라 하면 $f'(k) = -2 \sum_{i=1}^{n} (X_i - k)$, $f''(k)=2n > 0$이다.

따라서 $f(k)$는 convex하므로 단 하나의 최솟값을 갖고, 그 지점은 $f'(k)=0$이 되는 $k$이다.

$f'(k)=0 \Rightarrow \sum_{i=1}^{n} X_i - nk = 0 \Rightarrow k^* = \frac{1}{n}\sum_{i=1}^{n} X_i = \bar{X}$.

따라서 $\sum_{i=1}^{n} (X_i - k)^2$가 최소가 되는 $k$는 sample mean과 같다. $k^* = \bar{X}$

 

일반적으로 $\bar{X} \neq \mu$이므로

$\sum_{i=1}^{n} (X_i - \bar{X})^2 \le \sum_{i=1}^{n} (X_i - \mu)^2$ 가 된다.

양변에 $1/n$을 곱하면

$\frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2 \le \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2$

 

그러니까 $\bar{X}$를 대입한 식은 실제 모평균 $\mu$를 대입한 값보다 항상 더 작은 값으로 추정하게 된다.

따라서 똑같이 $n$이 아니라 $n$보다 더 작은 값으로 나눠줘야 올바르게(?) 추정하게 된다.

이 올바른(?) 추정의 기준이 있을까?

불편추정량 (unbiased estimator)

어떤 모수(parameter) $\theta$의 추정량을 $\hat{\theta}$라 하자. 

이때 $E[\hat{\theta}] = \theta$ 이면 $\hat{\theta}$는 $\theta$의 불편추정량이라고 한다.

기댓값이 모수와 같은 추정량이 더 좋은 이유는, 분산에만 집중할 수 있기 때문이다. (bias-variance trade off 참고)

 

※ 불편성(unbiasedness)은 좋은 기준이지만, 추정량을 고를 때 항상 불편추정량만을 선택하지 않는다. 경우에 따라 분산이 적은 추정량이 선호될 수 있다.

※ bias, variance, MSE, consistency, efficiency, robustness 등 다양한 요소를 고려하여 추정량을 고를 수 있다.

※ 학부수준에서는 불편추정량을 찾고, 이 중에서 분산이 가장 작은 추정량(최소분산불편추정량, MVUE)을 찾는 방법을 배운다.

표본분산의 불편성

이제 $n$이 아니라 정확히 $n-1$이어야 하는 이유를 직접 계산을 통해 알아보자.

 

표본분산은 $S^2$으로 표기하고 (확률변수는 대문자, 실제 데이터는 소문자 $s^2$)

\[ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 \]

이다. 표본분산을 계산할 때 알 수 있는 정보인 표본의 정보($n, X_i, \overline{X}$)만 이용하여 계산한다.

 

모평균과 모분산은 알려져 있지 않지만, 어쨌든 고정된 값(fixed value)로 존재할 것이다.

식을 변형해보자.

 

\begin{align} (X_i - \bar{X})^2 &= (X_i - \mu + \mu - \bar{X})^2 \\ &= (X_i - \mu)^2 + 2(X_i - \mu)(\mu - \bar{X}) + (\mu - \bar{X})^2 \end{align}

두번째 항에 $\sum$을 하자. $\mu$와 $\bar{X}$는 어떤 fixed value이므로 상수이므로

\begin{align} \sum_{i=1}^{n} 2(X_i-\mu)(\mu - \bar{X}) &= -2(\bar{X}-\mu) \sum_{i=1}^{n} (X_i-\mu) \\ &= -2(\bar{X}-\mu) (n\bar{X} - n\mu) \ (\because \frac{1}{n} \sum_{i=1}^{n}X_i = \bar{X}) \\ &= -2n(\bar{X}-\mu)^2 \end{align}

 

따라서

\[ \sum_{i=1}^{n} (X_i - \bar{X})^2 = \sum_{i=1}^{n} (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \]

 

한편, 분산의 정의에 따라

$Var(X) = E[(X - E[X])^2] = E[(X - \mu)^2]$,

$Var(\bar{X}) = E[(\bar{X} - E[\bar{X}])^2] = E[(\bar{X} - \mu)^2]$이므로

\begin{align} E\left[ \sum_{i=1}^{n} (X_i - \bar{X})^2  \right] &= E\left[ \sum_{i=1}^{n} (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \right] \\ &= E\left[ \sum_{i=1}^{n} (X_i - \mu)^2 \right] - nE\left[ (\bar{X} - \mu)^2 \right] \\ &= nE[(X-\mu)^2] - nE[ (\bar{X} - \mu)^2 ] \\ &= nVar(X) - nVar(\bar{X}) \\ &= n\sigma^2 - n \frac{\sigma^2}{n} \\ &= (n-1)\sigma^2 \end{align}

 

따라서 

\[ E[S^2] = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 = \sigma^2  \]

이므로 $S^2$은 모분산의 불편추정량이다.

 

그러니까 $S_n^2 = \cfrac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2$로 정의했다면, $E[S_n^2] = \frac{n-1}{n}\sigma^2$이 되므로 unbiasedness를 만족하려면 원래 식에 $\cfrac{n}{n-1}$을 곱해야 한다. 즉, $n-1$로 나누는 것이다.

 

표본분산의 분포는? (자유도)

많은 경우에 자유도의 개념을 가져와서 설명하는 경우가 있다.

개인적인 생각은, 표본분산에 $n-1$로 나누는 이유로 자유도를 가져오는 것은 선후관계가 잘못된것이라 생각한다.

왜냐하면 자유도는 표본분산의 분포가 카이제곱분포를 따르고, 카이제곱분포는 자유도라는 모수(parameter)를 갖기 때문이다.

 

카이제곱분포는 표준정규분포를 따르는 $Z_i \sim N(0, 1)$의 제곱의 합의 분포이다. (서로 독립이다)

$W = \sum_{i=1}^{n} Z_i^2$이라 정의하면, $W \sim \chi^2_n$이며, 이때 $n$이 자유도라 한다.

 

다시 표본분산으로 돌아와서, 우리는 $E(X_i) = \mu$, $\text{Var}(X_i)=\sigma^2$, $E(\overline{X}) = \mu$, $\text{Var}(\overline{X}) = \frac{\sigma^2}{n}$임을 알고 있다. 따라서

\[ \frac{X_i - \mu}{\sigma} \sim N(0, 1),\quad \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} = \frac{\sqrt{n}(\overline{X}-\mu)}{\sigma} \sim N(0, 1) \]

이다.

위에서 $\sum_{i=1}^n (X_i - \mu)^2 = \sum_{i=1}^n (X_i - \overline{X})^2 - n(\overline{X} - \mu)^2$이므로 

\begin{align} \frac{(n-1)S^2}{\sigma^2} &= \frac{1}{\sigma^2} \sum_{i=1}^{n} (X_i - \overline{X})^2 \\ &= \frac{1}{\sigma^2} \bigg( \sum_{i=1}^{n}(X_i - \mu)^2 -n (\overline{X} - \mu)^2 \bigg) \\ &= \sum_{i=1}^{n} \bigg( \frac{X_i - \mu}{\sigma} \bigg)^2 - \bigg( \frac{\sqrt{n}(\overline{X} -\mu)}{\sigma} \bigg)^2 \end{align}

 

따라서 $\cfrac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$ 이다.

자유도가 $n$에서 $1$이 빠지는 이유는 식 전개중에 $\overline{X}$이 빠지면서 $Z^2$ 항이 사라지기 때문이다.

※ 이를 모평균 추정에 표본평균을 이미 사용(계산)했기 때문으로 직관적으로 설명하는 경우가 많다.

※ ANOVA, 선형회귀 등에서 자유도는 더 복잡해지는데, 다른 파라미터를 추정하는데 계산해서 자유도가 $n-k$가 된다.  예를 들어, (단순)선형회귀에서는 $\beta_0$, $\beta_1$를 먼저 추정하므로 자유도가 $n-2$가 된다. 물론 수식으로 전개하면 표본분산과 같이 2개의 항이 빠지는 경우가 생기는 것으로 증명할 수 있다.

자유도가 $n-1$이 되는 과정

표본표준편차의 경우?

표본표준편차(sample standard deviation)은 $S = \sqrt{S^2}$이다.

$S^2$가 $\sigma^2$의 불편추정량이라면, $E[S] = \sigma$일까?

그렇지 않다. $E[S] \neq \sigma$이다.

왜냐하면 $\sqrt{\cdot}$는 선형성을 만족하지 않기 때문이다. (non-linearity)

대신에, 다음과 같이 보정하여 계산할 수 있다. 

세번째 항 다음은 너무 작아서 $O(n^{-4})$ 으로 표기한다.

\[ E[S] \approx \sigma \cdot \left( 1 - \frac{1}{4n} - \frac{7}{32n^2} - \frac{19}{128n^3} - \cdots \right) \]

 

https://en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation

 

Unbiased estimation of standard deviation - Wikipedia

From Wikipedia, the free encyclopedia Procedure to estimate standard deviation from a sample In statistics and in particular statistical theory, unbiased estimation of a standard deviation is the calculation from a statistical sample of an estimated value

en.wikipedia.org

 

728x90
반응형