본문 바로가기
스터디/확률과 통계

Bootstrapping

by 궁금한 준이 2023. 5. 30.
728x90
반응형

 

Bootstrap

unknown distribution Fθ에 대하여, sampling을 통해 population distribution Fθ를 추론해보자.

 

Recall: Empirical Distribution

unknown distribution의 CDF를 Fθ라 할 때, empirical distribution을 F^라 하고

F^(x)=1ni=1nI(,x](xi)

 

우리는 n이 커지면 F^Fθ에 가까워질 것으로 기대한다. 

ψ를 추론하기 위해 ψ^=ψ^(x1,,xn)을 이용하면

VF^(ψ^)=EF^(ψ2^){EF^(ψ^)}2

그런데 이를 전개하면

1nnI1=1nIn=1nψ^2(x1,,xn)(1nnI1=1nIn=1nψ^(x1,,xn))2

이 식은 컴퓨터로도 계산이 불가능하다. (not feasible)

 

Bootstrapping

F^로부터 독립이며 sample size가 nB개의 bootstrap sample을 이용한다.

VF^^(ψ^)=1B1i=1B(ψ^ψ^)2

 

Bootstrap Confidence Intervals

bootstrapping을 이용하여 Confidence Interval을 구하는 방법은 2가지가 있다. 하나는 t-based CI이고 다른 하나는 qualtile을 이용한 방법이다. 일반적으로 quantile을 이용한 방법이 자주 사용된다.

 

t-based CI (bootstrap γ-confidence interval)

ψ±t(1+γ)/2(n1)VF^^(ψ)

 

Quantile-based CI (α trimmed mean)

B개의 bootstrap sample (ψ^(1),,ψ^(B))을 정렬하고, (2.5%,97.5%)만 취한다.

Example of 25%-trimmed mean where B=104 and n=15

 

728x90
반응형