Why do we need statistics?
지금까지 통계 이론을 많이 배웠다. 그렇다면 통계적 방법이 유용한 경우는 언제일까?
스탠포드 심장 이식 연구를 예시로 하여 생각을 해보자. 이 논문에는 심장 이식 프로그램의 성공 여부를 논하고 있다. 우리는 심장 이식 수술을 받은 환자가 그렇지 않은 환자보다 더 오래 사는지 관심을 가질 것이다. 그러나 이는 수술을 받은 환자와 수술을 받지 않은 환자 모두 사망할 때까지 기다려야 알 수 있다. 대신에, 심장 이식 수술을 받은 환자의 수명을 비교할 수 있다.
한가지 접근 방법은 심장 이식 수술을 받은 환자와, 그렇지 않은 환자의 수명 분포가 있다고 가정하는 것이다. 이식을 받은 집단을 $T$(Transplant)라 하고 수술을 받지 않은 집단을 대조군이라 하여 $C$라 하자. 즉 각 집단의 수명 분포를 각각 $f_T, f_C$로부터 평균수명을 계산하여 심장 이식 수술의 효용성을 판단할 수 있다. 그리고 추출한 표본(sample)이 많을 수록 가능할 것이다.
그러나 실제로는 표본의 크기가 크지 않기 때문에 불확실성에 직면하게 된다.
Probability Model
만일 우리가 확률 모형(probability model)을 알고 있다면 미래 불확실성을 계산할 수 있다.
확률 분포를 사용하여 미래 반응을 예측하거나 주어진 값이 분포의 가능한 미래 값으로 타당한지 여부를 평가할 수 있습니다.
예를 들어 평균수명이 1년인 어떤 기계의 수명은 $X \sim Exp(1)$인 확률 모델을 따른다고 할 수 있다.
이 기계가 5년 이상 동작할 확률은 $P(X>5) = \int_{5}^{\infty}e^{-x}\ dx = 0.0067$ 과 같이 계산이 가능하다.
또한 최빈값(mode), 평균(mean), 중앙값(median) 등도 계산할 수 있다.
Note: 연속확률분포에서 mode는 density가 최댓값이다.
Example. Beta Distribution
$a,\ b > 1$일 때, 베타 분포의 평균과 최빈값을 구하고, 평균이 most accurate predictor임을 보여라.
(평균을 구하는 것은 생략)
$E(X) = \cfrac{a}{a+b}$
$a, b > 1$이므로 베타분포는 unimodal(단봉) distribution이다.
$f_X'(x) = \cfrac{1}{B(a, b)}x^{a-2}(1-x)^{b-2}\{(a-1)(1-x)-(b-1)x \}$
$f_X'(x)=0$이 되는 $x$를 찾으면 $mode(X) = \cfrac{a-1}{a+b-2}$ 이다.
일반적으로 mean은 MSE를 최소화하는 값이므로 $MSE'(\mu)=0$임을 보이자.
$MSE(\mu) = E[(X-\mu)^2] = E(X^2) - 2E(X)\mu + \mu^2$
$MSE'(\mu) = -2E(X) + 2\mu = 0$
또한 $MSE''(\mu) = 2 > 0$이므로 아래로 볼록하다.
$MSE$를 최소로 하는 값은 $\mu = E(X)$이다.
따라서 mode보다 mean이 $X$를 예측하는 더 좋은 predictor가 된다.
Example. Geometric Distribution
$X \sim Geo(1/3)$일 때, 확률이 $0.95$인 가장 짧은 구간을 구하여라.
$p(x) = \left( \cfrac{2}{3} \right)^{x-1} \left( \cfrac{1}{3} \right), x = 1, 2, 3, \dots$
기하분포는 감소함수이므로 가장 짧은 구간은 $1, 2, \dots, k$가 될 것이다.
따라서 $cdf(k) > 0.95$가 되는 $k$의 최솟값을 찾는다.
$cdf(k) = 1 - (1-p)^K > 0.95$, $1-(2/3)^k > 0.95$, $\log(0.05) > k \log(2/3)$, $7.388 < k$
따라서 $k=8$이다.
Statistical Models
위의 확률 모델은 확률 분포를 완전히 알고있는 경우에 사용할 수 있다. 그러나 많은 경우에 확률 자체에 대한 불확실성을 갖는다. 즉 우리가 얻은 data를 바탕으로 $P$를 추론(infer)해야한다. 몇가지 잘 알려진 방법을 익히기 전에 기본 요소를 정리해보자.
통계모델(statistical model)은 집합 $\{ P_{\theta}: \theta \in \Omega \}$ 으로 표현된다. 이때 $\theta$는 parameter(모수), $\Omega$는 parameter space라 한다. 그리고 두 모수가 같은 경우에만 statistical model이 같다고 한다. ($P_{\theta_1} = P_{\theta_2}$ iff $\theta_1 = \theta_2$)
$P_{\theta}$는 pmf, pdf, cdf가 가능하고 density의 경우 $f_{\theta}$로, cdf의 경우 $F_{\theta}$ 로 표기할 수 있다.
I.I.D. Random Sample
single $X$가 어떤 분포 $f_{\theta}$를 갖는다고 하자.
i.i.d. sample $(X_1, \dots, X_n)$의 경우는 joint density $f_{\theta}(x_1)\cdots f_{\theta}(x_n)$을 갖는다.
Example. Bernoulli Distribution
$X_1, \dots, X_n \overset{i.i.d.}{\sim}Ber(\theta)$라 하면 $\theta \in \Omega = \{0, 1 \}$이고 $f_{\theta}(x) = \theta^x(1-\theta)^{1-x}$이므로 joint pmf는
$f_{\theta}(x_1)\cdots f_{\theta}(x_n) = \theta^{\sum_{i=1}^{n}x_i}(1-\theta)^{n - \sum_{i=1}^{n}x_i}$
Example. Normal Distribution
$X_1, \dots, X_n \overset{i.i.d.}{\sim}N(\mu, \sigma^2)$ 라 하면
\begin{align*} f_{\mu,\ \sigma^2}(x_1, \dots, x_n) &= (2 \pi \sigma^2)^{-n/2} \cdot \text{exp} \left[ -\cfrac{\sum_{i=1}^{n}(x_i - \mu)^2}{2 \sigma^2} \right] \\ &= (2 \pi \sigma^2)^{-n/2} \text{exp}\left[ -\cfrac{n(\overline{x} - \mu)^2}{2 \sigma^2} -\cfrac{(n-1)S^2}{2 \sigma^2} \right] \end{align*}
Types of Inference
$\psi(\theta)$: $\theta$에 대한 함수
$s$: data. sample에 대한 함수이다. (mean, variance, 등)
Problem of estimation
Choose an estimate of $T(s)$ of $\psi(\theta)$
Credible region (Confidence retion) construction
$\psi(\theta)$의 가능한 범위 $C(s)$를 구성하는 것
Hypothesis assessment (Hypothesis testing)
데이터 $s$를 관측했을 때 $\psi_0$가 그럴듯한지(plausible) 테스트