본문 바로가기
스터디/확률과 통계

Bootstrapping

by 궁금한 준이 2023. 5. 30.
728x90
반응형

Bootstrap

unknown distribution $F_{\theta}$에 대하여, sampling을 통해 population distribution $F_{\theta}$를 추론해보자.

 

Recall: Empirical Distribution

unknown distribution의 CDF를 $F_{\theta}$라 할 때, empirical distribution을 $\hat{F}$라 하고

\[ \hat{F}(x) = \cfrac{1}{n}\sum_{i=1}^{n} I_{(\infty, x]}(x_i) \]

 

우리는 $n$이 커지면 $\hat{F}$가 $F_{\theta}$에 가까워질 것으로 기대한다. 

$\psi$를 추론하기 위해 $\hat{\psi}=\hat{\psi}(x_1, \dots, x_n)$을 이용하면

\[ V_{\hat{F}}(\hat{\psi}) = E_{\hat{F}}(\hat{\psi^2}) - \{ E_{\hat{F}}(\hat{\psi}) \}^2 \]

그런데 이를 전개하면

\[ \cfrac{1}{n^n}\sum_{I_1=1}^{n} \cdots \sum_{I_n=1}^{n} \hat{\psi}^2(x_1, \dots, x_n) - \left( \cfrac{1}{n^n}\sum_{I_1=1}^{n} \cdots \sum_{I_n=1}^{n} \hat{\psi}(x_1, \dots, x_n) \right)^2 \]

이 식은 컴퓨터로도 계산이 불가능하다. (not feasible)

 

Bootstrapping

$\hat{F}$로부터 독립이며 sample size가 $n$인 $B$개의 bootstrap sample을 이용한다.

\[ \widehat{V_{\hat{F}}}(\hat{\psi}) = \cfrac{1}{B-1} \sum_{i=1}^{B} (\hat{\psi} - \overline{\hat{\psi}})^2 \]

 

Bootstrap Confidence Intervals

bootstrapping을 이용하여 Confidence Interval을 구하는 방법은 2가지가 있다. 하나는 $t$-based CI이고 다른 하나는 qualtile을 이용한 방법이다. 일반적으로 quantile을 이용한 방법이 자주 사용된다.

 

t-based CI (bootstrap $\gamma$-confidence interval)

$\psi \pm t_{(1+\gamma)/2}(n-1) \sqrt{\widehat{V_{\hat{F}}}(\psi)}$

 

Quantile-based CI ($\alpha$ trimmed mean)

$B$개의 bootstrap sample $(\hat{\psi}^{(1)}, \dots, \hat{\psi}^{(B)})$을 정렬하고, $(2.5\%, 97.5\%)$만 취한다.

Example of 25%-trimmed mean where $B=10^4$ and $n=15$

 

728x90
반응형