본문 바로가기
스터디/확률과 통계

Ch5. Statistical Inference

by 궁금한 준이 2023. 5. 8.
728x90
반응형

 

 

Why do we need statistics?

지금까지 통계 이론을 많이 배웠다. 그렇다면 통계적 방법이 유용한 경우는 언제일까?

 

스탠포드 심장 이식 연구를 예시로 하여 생각을 해보자. 이 논문에는 심장 이식 프로그램의 성공 여부를 논하고 있다. 우리는 심장 이식 수술을 받은 환자가 그렇지 않은 환자보다 더 오래 사는지 관심을 가질 것이다. 그러나 이는 수술을 받은 환자와 수술을 받지 않은 환자 모두 사망할 때까지 기다려야 알 수 있다. 대신에, 심장 이식 수술을 받은 환자의 수명을 비교할 수 있다.

 

한가지 접근 방법은 심장 이식 수술을 받은 환자와, 그렇지 않은 환자의 수명 분포가 있다고 가정하는 것이다. 이식을 받은 집단을 $T$(Transplant)라 하고 수술을 받지 않은 집단을 대조군이라 하여 $C$라 하자. 즉 각 집단의 수명 분포를 각각 $f_T, f_C$로부터 평균수명을 계산하여 심장 이식 수술의 효용성을 판단할 수 있다. 그리고 추출한 표본(sample)이 많을 수록 가능할 것이다.

 

그러나 실제로는 표본의 크기가 크지 않기 때문에 불확실성에 직면하게 된다.

 

 

Probability Model

만일 우리가 확률 모형(probability model)을 알고 있다면 미래 불확실성을 계산할 수 있다.

확률 분포를 사용하여 미래 반응을 예측하거나 주어진 값이 분포의 가능한 미래 값으로 타당한지 여부를 평가할 수 있습니다.

 

예를 들어 평균수명이 1년인 어떤 기계의 수명은 $X \sim Exp(1)$인 확률 모델을 따른다고 할 수 있다. 

이 기계가 5년 이상 동작할 확률은 $P(X>5) = \int_{5}^{\infty}e^{-x}\ dx = 0.0067$ 과 같이 계산이 가능하다.

또한 최빈값(mode), 평균(mean), 중앙값(median) 등도 계산할 수 있다.

Note: 연속확률분포에서 mode는 density가 최댓값이다.

 

Example. Beta Distribution

$a,\ b > 1$일 때, 베타 분포의 평균과 최빈값을 구하고, 평균이 most accurate predictor임을 보여라.

 

(평균을 구하는 것은 생략)

$E(X) = \cfrac{a}{a+b}$

$a, b > 1$이므로 베타분포는 unimodal(단봉) distribution이다.

$f_X'(x) = \cfrac{1}{B(a, b)}x^{a-2}(1-x)^{b-2}\{(a-1)(1-x)-(b-1)x \}$

$f_X'(x)=0$이 되는 $x$를 찾으면 $mode(X) = \cfrac{a-1}{a+b-2}$ 이다.

 

일반적으로 mean은 MSE를 최소화하는 값이므로 $MSE'(\mu)=0$임을 보이자.

$MSE(\mu) = E[(X-\mu)^2] = E(X^2) - 2E(X)\mu + \mu^2$

$MSE'(\mu) = -2E(X) + 2\mu = 0$

또한 $MSE''(\mu) = 2 > 0$이므로 아래로 볼록하다.

$MSE$를 최소로 하는 값은 $\mu = E(X)$이다.

따라서 mode보다 mean이 $X$를 예측하는 더 좋은 predictor가 된다.

 

Example. Geometric Distribution

$X \sim Geo(1/3)$일 때, 확률이 $0.95$인 가장 짧은 구간을 구하여라.

 

$p(x) = \left( \cfrac{2}{3} \right)^{x-1} \left( \cfrac{1}{3} \right), x = 1, 2, 3, \dots$

기하분포는 감소함수이므로 가장 짧은 구간은 $1, 2, \dots, k$가 될 것이다.

따라서 $cdf(k) > 0.95$가 되는 $k$의 최솟값을 찾는다.

$cdf(k) = 1 - (1-p)^K > 0.95$, $1-(2/3)^k > 0.95$, $\log(0.05) > k \log(2/3)$, $7.388 < k$

따라서 $k=8$이다.

 

Statistical Models

위의 확률 모델은 확률 분포를 완전히 알고있는 경우에 사용할 수 있다. 그러나 많은 경우에 확률 자체에 대한 불확실성을 갖는다. 즉 우리가 얻은 data를 바탕으로 $P$를 추론(infer)해야한다. 몇가지 잘 알려진 방법을 익히기 전에 기본 요소를 정리해보자.

통계모델(statistical model)은 집합 $\{ P_{\theta}: \theta \in \Omega \}$ 으로 표현된다. 이때 $\theta$는 parameter(모수), $\Omega$는 parameter space라 한다. 그리고 두 모수가 같은 경우에만 statistical model이 같다고 한다. ($P_{\theta_1} = P_{\theta_2}$ iff $\theta_1 = \theta_2$)

$P_{\theta}$는 pmf, pdf, cdf가 가능하고 density의 경우 $f_{\theta}$로, cdf의 경우 $F_{\theta}$ 로 표기할 수 있다.

 

I.I.D. Random Sample

single $X$가 어떤 분포 $f_{\theta}$를 갖는다고 하자.

i.i.d. sample $(X_1, \dots, X_n)$의 경우는 joint density $f_{\theta}(x_1)\cdots f_{\theta}(x_n)$을 갖는다.

 

Example. Bernoulli Distribution

$X_1, \dots, X_n \overset{i.i.d.}{\sim}Ber(\theta)$라 하면 $\theta \in \Omega = \{0, 1 \}$이고 $f_{\theta}(x) = \theta^x(1-\theta)^{1-x}$이므로 joint pmf는 

$f_{\theta}(x_1)\cdots f_{\theta}(x_n) = \theta^{\sum_{i=1}^{n}x_i}(1-\theta)^{n - \sum_{i=1}^{n}x_i}$

 

Example. Normal Distribution

$X_1, \dots, X_n \overset{i.i.d.}{\sim}N(\mu, \sigma^2)$ 라 하면

\begin{align*} f_{\mu,\ \sigma^2}(x_1, \dots, x_n) &= (2 \pi \sigma^2)^{-n/2} \cdot \text{exp} \left[ -\cfrac{\sum_{i=1}^{n}(x_i - \mu)^2}{2 \sigma^2} \right] \\ &= (2 \pi \sigma^2)^{-n/2} \text{exp}\left[ -\cfrac{n(\overline{x} - \mu)^2}{2 \sigma^2} -\cfrac{(n-1)S^2}{2 \sigma^2} \right] \end{align*}

 

Types of Inference

$\psi(\theta)$: $\theta$에 대한 함수

$s$: data. sample에 대한 함수이다. (mean, variance, 등)

 

Problem of estimation

Choose an estimate of $T(s)$ of $\psi(\theta)$

 

Credible region (Confidence retion) construction

$\psi(\theta)$의 가능한 범위 $C(s)$를 구성하는 것

 

Hypothesis assessment (Hypothesis testing)

데이터 $s$를 관측했을 때 $\psi_0$가 그럴듯한지(plausible) 테스트

728x90
반응형