본문 바로가기
스터디/확률과 통계

Likelihood function, Sufficient Statistics, Minimum Sufficient Statistics (가능도함수, 충분통계량, 최소충분통계량)

by 궁금한 준이 2023. 5. 16.
728x90
반응형

Textbook
Textbook

반응형

 

Likelihood Function

likelihood inference는 관찰한 데이터 $s$와 Statistical Model(통계모델) $\{P_{\theta}: \theta \in \Omega \}$ 을 이용한 추정법이다. 일반적으로 pmf, pdf의 경우 각각 $P_{\theta},\ f_{\theta}$로 표기하지만 포스팅에서는 맥락에 맞추어 $f_{\theta}$로 통일한다.

 

likelihood function은 다음과 같이 정의한다.

\[ L(\theta | s) = f_{\theta}(s) \]

 

$f_{\theta_1}(s) > f_{\theta_2}(s)$라면, 데이터 $s$는 $\theta = \theta_1$일 때 더 관측될 가능성(믿음)이 높다고 한다.

 

$S = \{ 1, 2, \dots \}$에 대하여 두 통계모델($\{P_{\theta}: \theta \in \{1, 2 \} \}$)이 있다고 하자. 

이때 $P_1$은 $\{1, 2, \dots, 10^3 \}$의 균등분포를, $P_2$는 $\{1, 2, \dots, 10^6 \}$의 균등분포라고 하자.

관찰한 데이터가 $s=10$이라 하자. 그러면 $L(1|10)=10^{-3}$이고 $L(2|10)=10^{-6}$이므로 (둘 다 그 likelihood 수치는 작지만) 우리는 $\theta=1$인 통계모델에서 데이터 $s=10$이 관측될 것이라 생각할 수 있다.

 

The Likelihood Principle

또한 $L*(\cdot | s) = cL(\cdot | s)$라면 두 likelihood $L*,\ L$은 같은 likelihood를 갖는다고 한다.

 

동전의 앞면이 나올 확률을 $\theta$라고 하자. 동전을 10번 던져서 앞면이 4개가 나오는 시나리오의 경우, 

\[ L_1(\theta|4)= \dbinom{10}{4}\theta^4 (1-\theta)^{6} \]

그리고 동전의 앞면이 나온 횟수가 4이 될 때까지 계속 동전을 던지고, 4번째 앞면이 나올 때 까지 얻은 뒷면의 개수를 6이라 하자. 이는 Negative Binomial이므로

\[ L_2(\theta|6) = \dbinom{9}{6}\theta^3 (1-\theta)^6 \cdot \theta = \dbinom{9}{3}\theta^4(1-\theta)^6 \]

위 두 likelihood $L_1$과 $L_2$는 상수배 차이이므로 서로 같은 likelihood를 갖는다.

 

Sufficient Statistics (충분통계량)

Definition of Sufficient Statistics (충분통계량의 정의)

sample space $S$에서 정의된 함수 $T$에 대하여, $T(s_1)=T(s_2)$이면 $L(\cdot | s_1) = c(s_1, s_2) L(\cdot | s_2)$가 성립하면, $T$는 충분통계량이라 부른다. (단, $c(s_1, s_2)>0$)
Note: sufficient statistics는 compressed data로 생각할 수 있다.

Example

sample space $S= \{ 1, 2, 3, 4 \}$, parameter space $\Omega = \{a, b \}$라 하고 2개의 확률분포가 다음과 같다고 하자.

 

Example probability distributions

이때, parameter에 상관없이 $L(\cdot | 2)=L(\cdot|3)=L(\cdot|4)$임을 알 수 있다. 즉 $\{2,3,4 \}$은 같은 likelihood ratio를 갖는다.(구분할 수 없다.) 따라서 $T: S \to \{0, 1\}$으로 정의할 수 있다. 따라서 \[ T(s) = \begin{cases} 0 & \text{if } s=1, \\ 1 & \text{if } s=2,3,4 \end{cases} \]

 

아래 theorem을 이용하면 쉽게 SS를 찾을 수 있다.

Sufficient Statistics and Factorization Theorem (충분통계량과 인수분해정리)

$S$에 대한 함수 $T$가
\[ f_{\theta}(x) = h(x)g_{\theta}(T(x)) \]
로 factorization 될 때, $T$는 충분통계량이다.
Note: $f$가 ($\theta$와 무관한 함수) $\times$ ($\theta$와 유관한 함수)로 나타낼 때 사용할 수 있다.
Note: 충분통계량은 $SS$로 줄여쓰기도 한다.
Note: 충분통계량은 유일하지 않다.

 

Proof

$T(s_1)=T(s_2)$를 이용한다.

\begin{align} L(\cdot|s_1) &= h(s_1)g_{\theta}(T(s_1)) \\ &= \cfrac{h(s_1)g_{\theta}(T(s_1))}{h(s_2)g_{\theta}(T(s_2))}h(s_2)g_{\theta}(T(s_2)) \\ &= \cfrac{h(s_1)}{h_{s_2}h(s_2)g_{\theta}T((s_2))} \ (\because T(s_1)=T(s_2)) \\ &= c(s_1, s_2)L(\cdot | s_2) \end{align}

Minimum Sufficient Statistics (MSS, 최소충분통계량)

주어진 모델에서 통계량 $T$가 충분통계량일 때, $T(s)$의 값이 likelihood function $L(\cdot \mid s)$를 통해 계산 가능하다면, $T$는 최소충분통계량(minimum sufficient statistic, MSS)이다.
Note: minimal sufficient statistics는 most compressed data (and still retain all information of parameters)로 생각할 수 있다.

 

최소충분통계량은 데이터 정보를 최대한으로 압축(축약)한다.

따라서 $T$가 MSS이고, $U$가 SS라면, 어떤 함수 $h$에 대하여 $T = h(U)$의 관계가 성립한다.

SS와 MSS의 정의는 모델에 의존하며, 서로 다른 모델은 서로 다른 SS와 MSS를 가질 수 있다.

 

Example: Location-Scale Normal Model

$(x_1, \dots, x_n)$이 $N(\mu, \sigma^2)$에서 샘플링된 데이터라 하자. ($\mu$와 $\sigma$는 unknown)

이 모델은 parameter가 2개인 2차원이고, $\theta = (\mu, \sigma^2) \in \Omega = \mathbb{R}^1 \times (0, \infty)$

likelihood function은

\begin{align} L(\theta | x_1, \dots, x_n) &= \prod_{i=1}^{n} (2\pi \sigma^2)^{-1/2} \exp \left(- \cfrac{(x_i - \mu)^2}{2 \sigma^2} \right) \\ &= (2\pi \sigma^2)^{-n/2} \exp \left(- \cfrac{1}{2\sigma^2}\sum_{i=1}^{n} (x_i - \mu)^2 \right) \\ &= (2\pi \sigma^2)^{-n/2} \exp\left[ -\cfrac{\sum_{i=1}^{n} (x_i - \bar{x} + \bar{x} - \mu)^2 }{2\sigma^2} \right] \\ &= (2\pi \sigma^2)^{-n/2}\exp \left[ -\cfrac{\sum_{i=1}^{n}(x_i - \bar{x})^2 + n(\bar{x} - \mu) }{2\sigma^2} \right] \\ &= (2\pi \sigma^2)^{-n/2} \exp \left[ -\cfrac{(n-1)s^2 + n(\bar{x}-\mu)}{2\sigma^2} \right] \\ &= (2\pi \sigma^2)^{-n/2} \exp\left[ -\cfrac{n}{2\sigma^2}(\bar{x}-\mu)^2 \right] \exp \left[ -\cfrac{n-1}{2\sigma^2}s^2 \right] \end{align}

 

likelihood를 3개의 곱으로 factorization할 수 있고, (factorization theorem에 따라) 첫번째 항은 $\text{const.}$, 두번째 항은 $\bar{x}$의 식, 세번째 항은 $s^2$이다. 따라서 sufficient statistics는 $SS=(\bar{x}, s^2)$이다.

 

likelihood를 $\mu$에 대해 편미분하면 maximized되는 지점은 $\hat{\mu}=\bar{x}$임을 쉽게 알 수 있다.

log-likelihood를 $\sigma^2$에 대해 편미분하여 maximized되는 지점을 찾아보자. ($\sigma^2$f를 한 문자로 간주)

log-likelihood는 $l((\bar{x}, \sigma^2)|x) = -\cfrac{n}{2} \ln \sigma^2 -\cfrac{n-1}{2\sigma^2}s^2$이므로

\[ \cfrac{\partial }{\partial \sigma^2}l((\bar{x}, \sigma^2)|x) = -\cfrac{n}{2\sigma^2} + \cfrac{n-1}{2\sigma^4}s^2 \]

(partial derivative가 concave한 것은 생략)

위 식이 $0$이 되는 $\sigma^2$를 찾으면 

\[ \hat{\sigma}^2 = \cfrac{n-1}{n}s^2 \]

 

이는 1-1 대응이면서 $s^2$의 함수이다.

그러므로 항상 $(\bar{x}, s^2)$의 함수로 SS를 구할 수 있으므로 $(\bar{x}, s^2)$이 MSS임을 알 수 있다.

 

Example 2. Multinomial Model

$k=3$인 다항분포의 likelihood function은 다음과 같다. (어차피 상수는 의미없다. 위 likelihood 정의 참고)

\[ L(\theta_1, \theta_2, \theta_3 \mid x_1, x_2, x_3) = \theta_{1}^{x_1} \theta_{2}^{x_2} \theta_{3}^{x_3} \]

라그랑주 승수법을 이용하여 MLE를 구하면

\[ (\theta_1, \theta_2, \theta_3) = \left( \frac{x_1}{n}, \frac{x_2}{n}, \frac{x_3}{n} \right) \]

따라서 $(x_1, x_2, x_3)$은 MSS 이다.

728x90
반응형