본문 바로가기
스터디/확률과 통계

Likelihood function, Sufficient Statistics, Minimum Sufficient Statistics (가능도함수, 충분통계량, 최소충분통계량)

by 궁금한 준이 2023. 5. 16.
728x90
반응형

Textbook
Textbook

반응형

Likelihood Function

likelihood inference는 관찰한 데이터 $s$와 Statistical Model(통계모델) $\{P_{\theta}: \theta \in \Omega \}$ 을 이용한 추정법이다. 일반적으로 pmf, pdf의 경우 각각 $P_{\theta},\ f_{\theta}$로 표기하지만 포스팅에서는 맥락에 맞추어 $f_{\theta}$로 통일한다.

 

likelihood function은 다음과 같이 정의한다.

\[ L(\theta | s) = f_{\theta}(s) \]

 

$f_{\theta_1}(s) > f_{\theta_2}(s)$라면, 데이터 $s$는 $\theta = \theta_1$일 때 더 관측될 가능성(믿음)이 높다고 한다.

 

$S = \{ 1, 2, \dots \}$에 대하여 두 통계모델($\{P_{\theta}: \theta \in \{1, 2 \} \}$)이 있다고 하자. 

이때 $P_1$은 \{1, 2, \dots, 10^3 \}의 균등분포를, $P_2$는 $\{1, 2, \dots, 10^6 \}$의 균등분포라고 하자.

관찰한 데이터가 $s=10$이라 하자. 그러면 $L(1|10)=10^{-3}$이고 $L(2|10)=10^{-6}$이므로 (둘 다 그 likelihood 수치는 작지만) 우리는 $\theta=1$인 통계모델에서 데이터 $s=10$이 관측될 것이라 생각할 수 있다.

 

The Likelihood Principle

또한 $L*(\cdot | s) = cL(\cdot | s)$라면 두 likelihood $L*,\ L$은 같은 likelihood를 갖는다고 한다.

 

동전의 앞면이 나올 확률을 $\theta$라고 하자. 동전을 10번 던져서 앞면이 4개가 나오는 시나리오의 경우, 

\[ L_1(\theta|4)= \dbinom{10}{4}\theta^4 (1-\theta)^{6} \]

그리고 동전의 앞면이 나온 횟수가 4이 될 때까지 계속 동전을 던지고, 4번째 앞면이 나올 때 까지 얻은 뒷면의 개수를 6이라 하자. 이는 Negative Binomial이므로

\[ L_2(\theta|6) = \dbinom{9}{6}\theta^3 (1-\theta)^6 \cdot \theta = \dbinom{9}{3}\theta^4(1-\theta)^6 \]

위 두 likelihood $L_1$과 $L_2$는 상수배 차이이므로 서로 같은 likelihood를 갖는다.

 

Sufficient Statistics (충분통계량)

Definition of Sufficient Statistics (충분통계량의 정의)

sample space $S$에서 정의된 함수 $T$에 대하여, $T(s_1)=T(s_2)$이면 $L(\cdot | s_1) = c(s_1, s_2) L(\cdot | s_2)$가 성립하면, $T$는 충분통계량이라 부른다. (단, $c(s_1, s_2)>0$)
Note: sufficient statistics는 compressed data로 생각할 수 있다.

Example

sample space $S= \{ 1, 2, 3, 4 \}$, parameter space $\Omega = \{a, b \}$라 하고 2개의 확률분포가 다음과 같다고 하자.

 

Example probability distributions

이때, parameter에 상관없이 $L(\cdot | 2)=L(\cdot|3)=L(\cdot|4)$임을 알 수 있다. 즉 $\{2,3,4 \}$은 같은 likelihood ratio를 갖는다.(구분할 수 없다.) 따라서 $T: S \to \{0, 1\}$으로 정의할 수 있다. 따라서 \[ T(s) = \begin{cases} 0 & \text{if } s=1, \\ 1 & \text{if } s=2,3,4 \end{cases} \]

 

아래 theorem을 이용하면 쉽게 SS를 찾을 수 있다.

Sufficient Statistics and Factorization Theorem (충분통계량과 인수분해정리)

$S$에 대한 함수 $T$가
\[ f_{\theta}(x) = h(x)g_{\theta}(T(x)) \]
로 factorization 될 때, $T$는 충분통계량이다.
Note: $f$가 ($\theta$와 무관한 함수) $\times$ ($\theta$와 유관한 함수)로 나타낼 때 사용할 수 있다.
Note: 충분통계량은 $SS$로 줄여쓰기도 하며, 유일하지 않다.

 

Proof

$T(s_1)=T(s_2)$를 이용한다.

\begin{align} L(\cdot|s_1) &= h(s_1)g_{\theta}(T(s_1)) \\ &= \cfrac{h(s_1)g_{\theta}(T(s_1))}{h(s_2)g_{\theta}(T(s_2))}h(s_2)g_{\theta}(T(s_2)) \\ &= \cfrac{h(s_1)}{h_{s_2}h(s_2)g_{\theta}T((s_2))} \ (\because T(s_1)=T(s_2)) \\ &= c(s_1, s_2)L(\cdot | s_2) \end{align}

Minimum Sufficient Statistics (MSS, 최소충분통계량)

최소충분통계량(minimal sufficient statistc, MSS)은, likelihood function $L(\cdot | x)$을 알면 $T(s)$를 항상 계산할 수 있는 모든 충분통계량이다.
Note: minimal sufficient statistics는 most compressed data (and still retain all information of parameters)로 생각할 수 있다.

$(x_1, \dots, x_n)$이 $N(\mu, \sigma^2)$에서 샘플링된 데이터라 하자. ($\mu$와 $\sigma$는 unknown)

이 모델은 parameter가 2개인 2차원이고, $\theta = (\mu, \sigma^2) \in \Omega = \mathbb{R}^1 \times (0, \infty)$

likelihood function은

\begin{align} L(\theta | x_1, \dots, x_n) &= \prod_{i=1}^{n} (2\pi \sigma^2)^{-1/2} \exp \left(- \cfrac{(x_i - \mu)^2}{2 \sigma^2} \right) \\ &= (2\pi \sigma^2)^{-n/2} \exp \left(- \cfrac{1}{2\sigma^2}\sum_{i=1}^{n} (x_i - \mu)^2 \right) \\ &= (2\pi \sigma^2)^{-n/2} \exp\left[ -\cfrac{\sum_{i=1}^{n} (x_i - \bar{x} + \bar{x} - \mu)^2 }{2\sigma^2} \right] \\ &= (2\pi \sigma^2)^{-n/2}\exp \left[ -\cfrac{\sum_{i=1}^{n}(x_i - \bar{x})^2 + n(\bar{x} - \mu) }{2\sigma^2} \right] \\ &= (2\pi \sigma^2)^{-n/2} \exp \left[ -\cfrac{(n-1)s^2 + n(\bar{x}-\mu)}{2\sigma^2} \right] \\ &= (2\pi \sigma^2)^{-n/2} \exp\left[ -\cfrac{n}{2\sigma^2}(\bar{x}-\mu)^2 \right] \exp \left[ -\cfrac{n-1}{2\sigma^2}s^2 \right] \end{align}

 

likelihood를 3개의 곱으로 factorization할 수 있고, (factorization theorem에 따라) 첫번째 항은 $\text{const.}$, 두번째 항은 $\bar{x}$의 식, 세번째 항은 $s^2$이다. 따라서 sufficient statistics는 $SS=(\bar{x}, s^2)$이다.

 

likelihood를 $\mu$에 대해 편미분하면 maximized되는 지점은 $\hat{\mu}=\bar{x}$임을 쉽게 알 수 있다.

log-likelihood를 $\sigma^2$에 대해 편미분하여 maximized되는 지점을 찾아보자. ($\sigma^2$f를 한 문자로 간주)

log-likelihood는 $l((\bar{x}, \sigma^2)|x) = -\cfrac{n}{2} \ln \sigma^2 -\cfrac{n-1}{2\sigma^2}s^2$이므로

\[ \cfrac{\partial }{\partial \sigma^2}l((\bar{x}, \sigma^2)|x) = -\cfrac{n}{2\sigma^2} + \cfrac{n-1}{2\sigma^4}s^2 \]

(partial derivative가 concave한 것은 생략)

위 식이 $0$이 되는 $\sigma^2$를 찾으면 

\[ \hat{\sigma}^2 = \cfrac{n-1}{n}s^2 \]

 

여기서 우리는 $(\bar{x}, s^2)$이 minimal sufficient statistics임을 알 수 있다.

728x90
반응형