Inferences Based on the MLE (MSE, Standard Error, Consistency, Confidence Interval)
by 궁금한 준이2023. 5. 23.
728x90
반응형
MSE and Unbiased Estimator
MLE를 통해 추정량 $\hat{\theta}$를 구할 수 있었다. 우리는 이렇게 구한 추정량이 실제 참 값 $\theta$가 되기를 원한다. 이를 평가하기 위한 measure가 필요하다. (to evaluate MLE, which is good and bad)
Mean-squared error (MSE, 평균제곱오차)
$\theta$에 대한 추정량 $\hat{\theta}$의 평균제곱오차 MSE는 다음과 같다. \[ \text{MSE}(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] \]
Decomposition of MSE \[ \text{MSE}(\hat{\theta}) = Var(\hat{\theta}) + [\text{Bias}(\hat{\theta})]^2 \] 이 때, $\text{Bias}(\hat{\theta})=E(\hat{\theta}) - \theta$ 이고, $\text{Bias}=0$이면 unbiased estimator of $\theta$라 한다.
How to calculate MSE
$MSE$ 역시 기댓값으로 정의하기 때문에 pdf가 주어졌을 때 $\int (\hat{\theta} - \theta)^2 ?? \ d??$ 의 형태로 계산할 수 있다.
모든 $\theta \in \Omega$에 다형 $P(\theta \in C(X)) \ge \gamma$이면, 구간 $C(X) = (l(X),\ u(X))$는 $\theta$의 $\gamma$-confidence interval이라 한다.
Likelihood Method likelihood를 이용하여 신뢰구간(confidence interval)을 구할 수 있다. \[ C(x) = \{ \theta: L(\theta | x) \ge k \} \] 이때 $k$를 정하는 방법은 여러가지 있는데 (1) 정확히 $\gamma$로 수렴할 때 (2) width가 최소화 될 때 (3) 구간이 추정량(estimator)에 대하여 대칭이 될 때(preferably)
Likelihood Method
Note: $C(x)$ 자체는 specific한 신뢰구간을 의미하지 않는다. repeated sampling을 했을 때, 해당 구간이 $100 \gamma \%$ 확률로 true value $\theta$를 포함한다는 의미이다.
여기서 $\gamma=0.95$라 하면($95\%$) $\cfrac{1+0.95}{2}=0.975$이므로 $k^*=z_{0.975}=1.96$ 을 대입하면 된다.
t-Confidence Intervals
$\mu, \sigma$ 모두 unknown인 정규분포 $N(\mu, \sigma^2)$에서 추출한 sample $(x_1, \dots, x_n)$에 대한 신뢰구간 CI를 구해보자. $\mu, sigma$ 모두 unknown이므로 $SE(\overline{X})=S/ \sqrt{n}$을 이용한다.
위의 동일한 논리(이 경우, CLT를 이용한 $t$분포 근사)를 이용한다.
$T= \left( \cfrac{\overline{X}-\mu}{\sigma / \sqrt{n}} \right) / \sqrt{\cfrac{(n-1)S^2}{\sigma^2}} =\cfrac{\overline{X}-\mu}{S / \sqrt{n}} \sim t(n-1)$를 적용하여 얻은 신뢰구간은 다음과 같다.
CLT를 이용한 $\cfrac{\sqrt{n}(\overline{X}-\theta)}{\sqrt{\theta(1-\theta)}}$ 대신에 $\cfrac{\sqrt{n}(\overline{X}-\theta)}{\sqrt{\overline{X}(1-\overline{X})}} \overset{D}{\to} N(0, 1)$을 이용하자.