표본분산은 왜 n이 아니라 n-1로 나눌까?
Notation
$\mu$: 모평균 (모집단의 평균, 우리는 알 수 없다.)
$\sigma^2$: 모분산 (모집단의 분산, 우리는 알 수 없다.)
$X_1, X_2, \dots, X_n$: 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단(정규분포일 필요는 없다.)에서 i.i.d(독립항등분포) 샘플링한 확률변수.
$\overline{X}$: 표본평균 (sample mean)
$E(X)$: 기댓값. $E[X] = \mu$
$Var(\cdot)$: 분산, $Var(X) = E[(X - E[X])^2] = E[X^2] - E[X]^2$
표본평균의 통계량
표본평균의 평균, $E[\overline{X}]$
$\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$이므로
\begin{align} E(\overline{X}) &= E\left( \frac{1}{n} (X_1 + \cdots + X_n) \right) \\ &= \frac{1}{n} (n \mu) \\ &= \mu \end{align}
표본평균의 분산($\neq$ 표본분산)
$X_i$가 서로 독립이므로 분산의 정의 대신에, linear combination을 이용하여 편하게 계산한다.
\begin{align} Var(\overline{X}) &= Var \left( \frac{1}{n} (X_1+\cdots + X_n) \right) \\ &= \frac{1}{n^2} (n \sigma^2) \\ &= \frac{\sigma^2}{n} \end{align}
왜 $n$으로 나누지 않는가에 대한 직관적 설명
우선, 왜 $n-1$이 맞는 방식은 제쳐두고, 왜 $n$이 아닌지에 대해 간단히 설명한다.
크기가 $n$인 표본에서 얻은 표본평균을 $\bar{X}$라 하자.
$\sum_{i=1}^{n} (X_i - k)^2$이 최소가 되는 $k$를 $k^*$라 하자.
$f(k) = \sum_{i=1}^{n} (X_i - k)^2$라 하면 $f'(k) = -2 \sum_{i=1}^{n} (X_i - k)$, $f''(k)=2n > 0$이다.
따라서 $f(k)$는 convex하므로 단 하나의 최솟값을 갖고, 그 지점은 $f'(k)=0$이 되는 $k$이다.
$f'(k)=0 \Rightarrow \sum_{i=1}^{n} X_i - nk = 0 \Rightarrow k^* = \frac{1}{n}\sum_{i=1}^{n} X_i = \bar{X}$.
따라서 $\sum_{i=1}^{n} (X_i - k)^2$가 최소가 되는 $k$는 sample mean과 같다. $k^* = \bar{X}$
일반적으로 $\bar{X} \neq \mu$이므로
$\sum_{i=1}^{n} (X_i - \bar{X})^2 \le \sum_{i=1}^{n} (X_i - \mu)^2$ 가 된다.
양변에 $1/n$을 곱하면
$\frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2 \le \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2$
그러니까 $\bar{X}$를 대입한 식은 실제 모평균 $\mu$를 대입한 값보다 항상 더 작은 값으로 추정하게 된다.
따라서 똑같이 $n$이 아니라 $n$보다 더 작은 값으로 나눠줘야 올바르게(?) 추정하게 된다.
이 올바른(?) 추정의 기준이 있을까?
불편추정량 (unbiased estimator)
어떤 모수(parameter) $\theta$의 추정량을 $\hat{\theta}$라 하자.
이때 $E[\hat{\theta}] = \theta$ 이면 $\hat{\theta}$는 $\theta$의 불편추정량이라고 한다.
기댓값이 모수와 같은 추정량이 더 좋은 이유는, 분산에만 집중할 수 있기 때문이다. (bias-variance trade off 참고)
※ 불편성(unbiasedness)은 좋은 기준이지만, 추정량을 고를 때 항상 불편추정량만을 선택하지 않는다. 경우에 따라 분산이 적은 추정량이 선호될 수 있다.
※ bias, variance, MSE, consistency, efficiency, robustness 등 다양한 요소를 고려하여 추정량을 고를 수 있다.
※ 학부수준에서는 불편추정량을 찾고, 이 중에서 분산이 가장 작은 추정량(최소분산불편추정량, MVUE)을 찾는 방법을 배운다.
표본분산의 불편성
이제 $n$이 아니라 정확히 $n-1$이어야 하는 이유를 직접 계산을 통해 알아보자.
표본분산은 $S^2$으로 표기하고 (확률변수는 대문자, 실제 데이터는 소문자 $s^2$)
\[ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 \]
이다. 표본분산을 계산할 때 알 수 있는 정보인 표본의 정보($n, X_i, \overline{X}$)만 이용하여 계산한다.
모평균과 모분산은 알려져 있지 않지만, 어쨌든 고정된 값(fixed value)로 존재할 것이다.
식을 변형해보자.
\begin{align} (X_i - \bar{X})^2 &= (X_i - \mu + \mu - \bar{X})^2 \\ &= (X_i - \mu)^2 + 2(X_i - \mu)(\mu - \bar{X}) + (\mu - \bar{X})^2 \end{align}
두번째 항에 $\sum$을 하자. $\mu$와 $\bar{X}$는 어떤 fixed value이므로 상수이므로
\begin{align} \sum_{i=1}^{n} 2(X_i-\mu)(\mu - \bar{X}) &= -2(\bar{X}-\mu) \sum_{i=1}^{n} (X_i-\mu) \\ &= -2(\bar{X}-\mu) (n\bar{X} - n\mu) \ (\because \frac{1}{n} \sum_{i=1}^{n}X_i = \bar{X}) \\ &= -2n(\bar{X}-\mu)^2 \end{align}
따라서
\[ \sum_{i=1}^{n} (X_i - \bar{X})^2 = \sum_{i=1}^{n} (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \]
한편, 분산의 정의에 따라
$Var(X) = E[(X - E[X])^2] = E[(X - \mu)^2]$,
$Var(\bar{X}) = E[(\bar{X} - E[\bar{X}])^2] = E[(\bar{X} - \mu)^2]$이므로
\begin{align} E\left[ \sum_{i=1}^{n} (X_i - \bar{X})^2 \right] &= E\left[ \sum_{i=1}^{n} (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \right] \\ &= E\left[ \sum_{i=1}^{n} (X_i - \mu)^2 \right] - nE\left[ (\bar{X} - \mu)^2 \right] \\ &= nE[(X-\mu)^2] - nE[ (\bar{X} - \mu)^2 ] \\ &= nVar(X) - nVar(\bar{X}) \\ &= n\sigma^2 - n \frac{\sigma^2}{n} \\ &= (n-1)\sigma^2 \end{align}
따라서
\[ E[S^2] = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 = \sigma^2 \]
이므로 $S^2$은 모분산의 불편추정량이다.
그러니까 $S_n^2 = \cfrac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2$로 정의했다면, $E[S_n^2] = \frac{n-1}{n}\sigma^2$이 되므로 unbiasedness를 만족하려면 원래 식에 $\cfrac{n}{n-1}$을 곱해야 한다. 즉, $n-1$로 나누는 것이다.
표본분산의 분포는? (자유도)
많은 경우에 자유도의 개념을 가져와서 설명하는 경우가 있다.
개인적인 생각은, 표본분산에 $n-1$로 나누는 이유로 자유도를 가져오는 것은 선후관계가 잘못된것이라 생각한다.
왜냐하면 자유도는 표본분산의 분포가 카이제곱분포를 따르고, 카이제곱분포는 자유도라는 모수(parameter)를 갖기 때문이다.
카이제곱분포는 표준정규분포를 따르는 $Z_i \sim N(0, 1)$의 제곱의 합의 분포이다. (서로 독립이다)
$W = \sum_{i=1}^{n} Z_i^2$이라 정의하면, $W \sim \chi^2_n$이며, 이때 $n$이 자유도라 한다.
다시 표본분산으로 돌아와서, 우리는 $E(X_i) = \mu$, $\text{Var}(X_i)=\sigma^2$, $E(\overline{X}) = \mu$, $\text{Var}(\overline{X}) = \frac{\sigma^2}{n}$임을 알고 있다. 따라서
\[ \frac{X_i - \mu}{\sigma} \sim N(0, 1),\quad \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} = \frac{\sqrt{n}(\overline{X}-\mu)}{\sigma} \sim N(0, 1) \]
이다.
위에서 $\sum_{i=1}^n (X_i - \mu)^2 = \sum_{i=1}^n (X_i - \overline{X})^2 - n(\overline{X} - \mu)^2$이므로
\begin{align} \frac{(n-1)S^2}{\sigma^2} &= \frac{1}{\sigma^2} \sum_{i=1}^{n} (X_i - \overline{X})^2 \\ &= \frac{1}{\sigma^2} \bigg( \sum_{i=1}^{n}(X_i - \mu)^2 -n (\overline{X} - \mu)^2 \bigg) \\ &= \sum_{i=1}^{n} \bigg( \frac{X_i - \mu}{\sigma} \bigg)^2 - \bigg( \frac{\sqrt{n}(\overline{X} -\mu)}{\sigma} \bigg)^2 \end{align}
따라서 $\cfrac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$ 이다.
자유도가 $n$에서 $1$이 빠지는 이유는 식 전개중에 $\overline{X}$이 빠지면서 $Z^2$ 항이 사라지기 때문이다.
※ 이를 모평균 추정에 표본평균을 이미 사용(계산)했기 때문으로 직관적으로 설명하는 경우가 많다.
※ ANOVA, 선형회귀 등에서 자유도는 더 복잡해지는데, 다른 파라미터를 추정하는데 계산해서 자유도가 $n-k$가 된다. 예를 들어, (단순)선형회귀에서는 $\beta_0$, $\beta_1$를 먼저 추정하므로 자유도가 $n-2$가 된다. 물론 수식으로 전개하면 표본분산과 같이 2개의 항이 빠지는 경우가 생기는 것으로 증명할 수 있다.
표본표준편차의 경우?
표본표준편차(sample standard deviation)은 $S = \sqrt{S^2}$이다.
$S^2$가 $\sigma^2$의 불편추정량이라면, $E[S] = \sigma$일까?
그렇지 않다. $E[S] \neq \sigma$이다.
왜냐하면 $\sqrt{\cdot}$는 선형성을 만족하지 않기 때문이다. (non-linearity)
대신에, 다음과 같이 보정하여 계산할 수 있다.
세번째 항 다음은 너무 작아서 $O(n^{-4})$ 으로 표기한다.
\[ E[S] \approx \sigma \cdot \left( 1 - \frac{1}{4n} - \frac{7}{32n^2} - \frac{19}{128n^3} - \cdots \right) \]
https://en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation
'스터디 > 확률과 통계' 카테고리의 다른 글
일원분류 분산분석 (One-Factor ANOVA) (1) | 2024.06.01 |
---|---|
적합도 검정, 독립성 검정 (Goodness of Fit Test, Independence Test) (0) | 2024.05.26 |
모비율 검정 (Inferences on Population Proportion, Two Population Proportions) (0) | 2024.05.18 |
모평균 추정-모집단이 두개인 경우 (Comparing Two Population Means, Paired Samples, Independent Samples) (0) | 2024.05.16 |
모평균 가설 검정 (Hypothesis Tests of a Population Mean, t-test, z-test) (0) | 2024.05.09 |