unknown distribution $F_{\theta}$에 대하여, sampling을 통해 population distribution $F_{\theta}$를 추론해보자.
Recall: Empirical Distribution
unknown distribution의 CDF를 $F_{\theta}$라 할 때, empirical distribution을 $\hat{F}$라 하고
\[ \hat{F}(x) = \cfrac{1}{n}\sum_{i=1}^{n} I_{(\infty, x]}(x_i) \]
우리는 $n$이 커지면 $\hat{F}$가 $F_{\theta}$에 가까워질 것으로 기대한다.
$\psi$를 추론하기 위해 $\hat{\psi}=\hat{\psi}(x_1, \dots, x_n)$을 이용하면
\[ V_{\hat{F}}(\hat{\psi}) = E_{\hat{F}}(\hat{\psi^2}) - \{ E_{\hat{F}}(\hat{\psi}) \}^2 \]
그런데 이를 전개하면
\[ \cfrac{1}{n^n}\sum_{I_1=1}^{n} \cdots \sum_{I_n=1}^{n} \hat{\psi}^2(x_1, \dots, x_n) - \left( \cfrac{1}{n^n}\sum_{I_1=1}^{n} \cdots \sum_{I_n=1}^{n} \hat{\psi}(x_1, \dots, x_n) \right)^2 \]
이 식은 컴퓨터로도 계산이 불가능하다. (not feasible)
Bootstrapping
$\hat{F}$로부터 독립이며 sample size가 $n$인 $B$개의 bootstrap sample을 이용한다.
\[ \widehat{V_{\hat{F}}}(\hat{\psi}) = \cfrac{1}{B-1} \sum_{i=1}^{B} (\hat{\psi} - \overline{\hat{\psi}})^2 \]
Bootstrap Confidence Intervals
bootstrapping을 이용하여 Confidence Interval을 구하는 방법은 2가지가 있다. 하나는 $t$-based CI이고 다른 하나는 qualtile을 이용한 방법이다. 일반적으로 quantile을 이용한 방법이 자주 사용된다.
t-based CI (bootstrap $\gamma$-confidence interval)
$\psi \pm t_{(1+\gamma)/2}(n-1) \sqrt{\widehat{V_{\hat{F}}}(\psi)}$
Quantile-based CI ($\alpha$ trimmed mean)
$B$개의 bootstrap sample $(\hat{\psi}^{(1)}, \dots, \hat{\psi}^{(B)})$을 정렬하고, $(2.5\%, 97.5\%)$만 취한다.
'스터디 > 확률과 통계' 카테고리의 다른 글
Measure Theoretic Probability (4) | 2023.09.06 |
---|---|
UMVUE (Uniformly Minimum Variance Unbiased Estimator) (0) | 2023.05.31 |
Distribution-Free Methods, Method of Moments, Delta Method (0) | 2023.05.27 |
Power Function of a test (0) | 2023.05.26 |
Testing Hypothesis and p-values (0) | 2023.05.25 |