본문 바로가기
스터디/확률과 통계

UMVUE (Uniformly Minimum Variance Unbiased Estimator)

by 궁금한 준이 2023. 5. 31.
728x90
반응형

 

Why unbiasness?

$T$는 statistics(통계량), $c$를 parameter라 할 때, 다음이 성립한다.

\[ MSE = E[(T-c)^2] = V(T) + (E(T) - c)^2 \]

이때 $V(T)$는 $c$와 상관없으므로(not depend on $c$) $c=E(T)$이면 최솟값을 얻을 수 있다.

 

$MSE$가 최솟값이 된다는 것은 아니다. ($T$에 의해 MSE의 값은 달라진다.)

그러나 $c=E(T)$, 즉 $T$가 unbiased estimator라면 우리는 분산에만 집중할 수 있다.

 

Uniformly Minimum Variance Unbiased Estimator (UMVUE)

unbiased estimator $\psi(\theta)$가 모든 $\theta \in \Omega$에 대하여 가장 작은 분산을 가지면, 최소분산불편추정량(UMVUE)이라고 한다.

따라서 불편추정량(unbiased estimotor) 중에서 분산이 최소가 되는 추정량을 고르는 과정을 알아볼 것이다.

 

Sufficient Statistics (충분통계량)

통계량 $U$가 어떤 모델에 대해 충분하다는 것은, $U=u$가 주어졌을 때 데이터 $s$의 조건부 분포가 모든 $\theta \in \Omega$에 대해 동일할 때 성립한다.

 

이 의미는, $U(s)=u$ 값 이외의 데이터 $s$에서 얻을 수 있는 정보는 $\theta$의 참값에 대해 아무것도 알려주지 않는다. 이는 이 정보가 모수(parameter)에 의존하지 않는 분포에서 오기 때문이다. 

Rao-Blackwell (라오-블랙웰 정리)

(Rao-Blackwell)
$U$가 충분통계량이고, 모든 $\theta$에 대해 $E_{\theta}(T^2)$가 유한하다고 하자. 그렇다면 모든 $\theta \in \Omega$에 대해 $\text{MSE}_{\theta}(T_U) \le \text{MSE}_{\theta}(T)$가 성립한다.

 

유한한 2차 적률을 갖는 임의의 추정량 $T$에 대하여, $T(s)$를 $T_U(s)$로 대체함으로써 항상 개선하거나 최소한 악화시키지 않을 수 있음을 보여준다. 이 과정을 추정량의 Rao-Blackwellization이라고도 한다.

Proof

\begin{align*} \text{MSE}(T) &= E[(T - \theta)^2] \\ &= E[(E(\hat{\theta} \mid U) - \theta)^2] \\ &= E\left[E[(\hat{\theta} - \theta) \mid U ]^2\right] \\ &\le E\left[ E[(\hat{\theta} - \theta)^2 \mid U] \right] (\because \text{Jensen's inequality}) \\ &= E\left[ (\hat{\theta} - \theta)^2 \right] (\because \text{total expectation}) \\ &= \text{MSE}(\hat{\theta}) \end{align*}

 

라오-블랙웰 정리에 따르면, $E(\hat{\theta} \mid U)$를 통해 더 좋은 (최소한 더 나쁘지 않은) 추정량 $\hat{\theta}$를 얻을 수 있음을 알 수 있다.

 

다시 MSE로 돌아오면,

\[ \text{MSE}_{\theta }(T) = \text{Var}_{\theta}(T) + (E_{\theta}(T) - \psi(\theta))^2 \]

따라서 $T$의 MSE는 $T$의 분산과 $T$의 bias의 제곱의 합으로 이루어져있다.

또한, $\psi(\theta)=E_{\theta}(T)$를 취함으로써 위 식이 최소화된다. 이는 추정량 $T$가 평균적으로 $E_{\theta}(T)$에 더 가까이 접근(squared error의 측면에서)한다는 것을 의미한다. 

따라서 $\theta$에 의해 결정되는 분포에서 샘플링할 때, $T(s)$는 $E_{\theta}(T)$의 자연스러운 추정량이다. 

따라서 일반적으로 $\psi(\theta)$에 대해 편향이 $0$인 추정량으로 관심을 제한하는 것이 합리적이다.

즉, 추정량 $T$가 불편추정량이면 ($E_{\theta}(T) = \psi(\theta)$) $\text{MSE}_{\theta}(T) = \text{Var}_{\theta}(T)$가 된다. 따라서 불편추정량을 구할수만 있으면, optimal estimator는 분산이 가장 작은 추정량이 될 것이다.

 

(Rao-Blackwell for unbiased estimator)
$T$가 유한한 2차 적률(second moment)를 가지며, $\psi(\theta)$에 대한 불편추정량이고, $U$가 충분 통계량이라면, 모든 $\theta \in \Omega$에 대해 $E_{\theta}(T_U) = \psi(\theta)$이다. (따라서, $T_U$ 또한 $\psi(\theta)$에 대한 불편추정량이다.)
또한, $\text{Var}_{\theta}(T_U) \le \text{Var}_{\theta}(T)$가 성립한다.

대부분의 경우, 불편추정량을 구하는 것이 좋은 추정량이 된다. 그러나 항상 그런 것은 아니다.

반응형

 

Completeness (완비성과 완비통계량)

통계량 $U$가 다음을 만족하면, 완비통계량이라고 한다. 

임의의 함수 $h$에 대해 $E_{\theta}[h(U)]=0$이 모든 $\theta \in \Omega$에서 성립하고, $h(U(s))=0$이 각각의 $\theta \in \Omega$에 대해 $1$의 확률로 성립하는 경우이다. 
즉, $\forall \theta \in \Omega$에 대해 $P_{\theta}({s: h(U(s))=0})=1$ 이면, $U$는 완비통계량이라고 한다.

 

확률론에서는 두 함수가 확률 $0$인 집합에서만 다르다면 이를 동등한(equivalent) 함수로 취급한다.

이는 관측된 반응 값(observed response value)에서 함수들이 서로 다른 값을 가질 확률이 $0$임을 의미한다.

따라서 위의 함수 $h$와 상수 $0$을 구별할 필요가 없다.

따라서, $U$가 complete하다는 것은, $U$에 기반한 $0$의 불편추정량이 오직 $0$ 자체일 때를 의미한다.

Lehman-Scheffe

만약 $U$가 완비 충분 통계량이고, $T$가 $U$의 값에 의해서만 데이터에 의존하며, 모든 $\theta$에 대해 유한한 2차 적률(second moment)을 가지고, $\psi(\theta)$에 대한 불편추정량이라면, $T$는 UMVU이다. 
Note: Rao-Blackwell에서 $T$가 completeness(완비성)도 만족하면 Lehman-Scheffe가 된다.

 

$N(\mu, \sigma_0^2)$: Location Normal

분산은 알려지고 평균은 알려지지않은 location normal의 MVUE를 구해보자.

앞서 우리는 likelihood에 의해 $\overline{x}$이 CSS이다.

따라서 $T(\overline{X})$는 UMVUE이다.

 

따라서 $E(\overline{X}) = \mu$는 $\mu$의 UMVUE이다.

 

$N(\mu, \sigma^2)$: Location-Scale Normal

$(x_1, \dots, x_n)$가 $N(\mu, \sigma^2)$의 샘플이라고 하자. 

$\mu$와 $\sigma^2$는 모두 모르는 값이므로 2차원 모델이다. 

즉 $(\mu, \sigma^2) \in R^1 \times (0, \infty)$

https://trivia-starage.tistory.com/143 에서 우리는 $(\bar{x}, s^2)$가 minimal sufficient statistics (MSS)임을 구할 수 있다.

완비성은 모든 $(\mu, \sigma^2)$에 대해 $E[g(\overline{X}, S^2)]=0$이면 $g(\overline{X}, S^2)=0$임을 이용하여 보일 수 있다. 따라서 $(\bar{x}, s^2)$은 CMSS (complete minimal sufficient statistic) 이다. 

따라서 $T(\bar{x}, s^2)$은 $E_{\theta}(T(\overline{X}, S^2))$의 UMVUE이다.

 

Distribution-Free Models

연속분포로부터 샘플 $(x_1, \cdots, x_n)$을 얻었다고 하자. 

통계모델은 $R^1$의 모든 연속분포로 구성된다.

순서통계량 $(x_{(1)}, \dots, x_{(n)})$이 이 모델에 대한 완비최소충분통계량임을 보일 수 있다. (생략)

따라서 $(x_{(1)}, \dots, x_{(n)})$의 함수인 $T(x_{(1)}, \dots, x_{(n)})$가 모든 연속분포에 대해 $E_{\theta}[T^2(X_{(1)}, \dots, X_{(n)})] < \infty$일 때, $E_{\theta}[T(X_{(1)}, \dots, X_{(n)})]$의 UMVUE이다. 

특히, $T: R^n \to R^1$가 유계함수일 경우, 이는 성립한다. 

예를 들어, $T(x_{(1)}, \dots, x_{(n)}) = \frac{1}{n} \sum_{i=1}^{n} I_A (x_{(i)})$가 표본에서 사건 $A$의 상대 빈도를 나타내는 경우, $T(x_{(1)}, \dots, x_{(n)})$는 $E_{\theta}[T(X_{(1)}, \dots, X_{(n)})] = P_{\theta}(A)$의 UMVU이다.

 

이제 모델 가정을 변경하여 $(x_1, \cdots, x_n)$이 $R^1$상의 연속분포로부터의 표본이고 1차 모멘트를 가지는 경우를 고려하자. 다시, 순서통계량이 완비최소충분통계량임을 증명할 수 있다. 따라서 $E_{\theta}[T(X_{(1)}, \dots, X_{(n)})]$에 대한 $T(x_{(1)}, \dots, x_{(n)})$가 모든 첫번째 모멘트를 갖는 연속분포에 대해 $E_{\theta}[T^2(X_{(1)}, \dots, X_{(n)})] < \infty$을 만족하면 UMVU이다.

예를 들어, $m=2$인 경우, $E_{\theta}(\overline{X})$에 대한 UMVU가 $T(x_{(1)}, \dots, x_{(n)})=\bar{x}$임을 의미한다. 

$m=4$인 경우, $s^2$은 모분산에 대한 UMVUE임을 의미한다.

728x90
반응형