본문 바로가기
스터디/확률과 통계

Maximum Likelihood Estimation (MLE, 최대우도추정법)

by 궁금한 준이 2023. 5. 17.
728x90
반응형

 

 

Maximum Likelihood Estimator

$L(\hat{\theta}(s) | s) \ge L(\theta | s)$를 만족하는 $\hat{\theta}: S \to \Omega$를 maximum likelihood estimator라 하고, $\hat{\theta}(s)$의 값을 maximum likelihood estimate, (MLE)라고 부른다.

Example 6.2.1.

표본공간은 $S = \{1, 2, 3 \}$이고 파라미터공간은 $\Omega=\{1, 2 \}$인 두 개의 model이 다음과 같다.

Table for Example 6.2.1

각 $s$마다 $L$이 가장 클 때를 조사하면 $\hat{\theta}(1)=1,\ \hat{\theta}(2)=2,\ \hat{\theta}(3)=1$

Note: MLE는 유일하지 않다. (위 예제에서 $f_2(s=1)=0,\ f_2(s=2)=0.7,\ f_3(s=3)=0.3$이라 하면 $\hat{\theta}(3)=2$ 역시 가능하다.) 
Reparameterization

$\hat{\theta}$가 MLE이고 $\psi$는 $\Omega$에서 정의된 1-1 fuction이라 하면 $\hat{\psi}(s) = \psi(\hat{\theta}(s))$ 역시 MLE이다.

이를 이용하면 $\theta$에 대한 (1-1 함수)함수의 MLE를 쉽게 구할 수 있다.

$\hat{\theta}$를 구할 수 있다면, $\widehat{\log}\theta$ 역시 MLE이다.

 

Computation of the MLE

$L(\theta|x)$를 최대로 하는 $\theta$가 MLE이다. 그러나 $L(\theta|x)$의 최솟값을 직접 구하는것은 쉽지 않은 경우가 많다. (특히 i.i.d.) 위의 reparameterization을 이용하여 log-likelihood를 이용하면 쉽게 계산할 수 있다.

Log-likelihood function

\[ l(\cdot | x) = \log L(\cdot | x) \]
를 log-likelihood라 한다.
Note: 주로 편미분(과 이계도함수)을 이용하여 $l(\cdot | x)$의 최솟값(global minimum)이 되는 $\hat{\theta} = \theta$를 구한다.

MLE of Uniform distribution

Indicator function $1_A(x)$: $x \in A$이면 $1$을, $x \notin A$이면 $0$을 return하는 함수이다.

$\prod 1_{[a_i, b_i]}(x)$은 전체 결과가 $1$이 되도록 구간 $[a, b]$을 조정한다.

 

Uniform의 pdf는 $f(x; \theta) = \frac{1}{\theta}_{(0, \theta]}(x)$이지만, MLE로 $\theta$를 구해야 하므로 구간을 $x$에 대한 식으로 바꾸면 $f(x; \theta) = \frac{1}{\theta}_{[x, \infty)}(\theta)$ 이다. ($0 \le x \le \theta$를 $x \le \theta \le \infty$로 $\theta$의 식 위주로 변형)

 

$(x_1, \dots, x_n)$이 $U[0, \theta]$의 sample일 때 MLE를 구해보자.

likelihood function을 구하면

\begin{align} L(\theta|x_1, \dots, x_n) &= \left( \cfrac{1}{\theta} \right)^n \cdot 1_{[x_i, \infty)}(\theta) \\ &= \cfrac{1}{\theta^n} \prod_{i=1}^{n} 1_{[x_, \infty)}(\theta) \\ &= \cfrac{1}{\theta^n}1_{[x_{(n)}, \infty)}(\theta) \end{align}

 

$\prod$의 결과가 $1$이 되기 위해서는 $\theta$가 모든 구간에서 포함되어야 한다.

예를 들어 $x_i=1, 2, 3, 4, 5$일때 $\theta=3.5$면 $[4, \infty)$, $[5, \infty)$에서 $0$이므로 $\prod 1_{[x_i, \infty)}(\theta) = 1^3 0^2=0$이므로 $0$이 되어버린다.

따라서 indicator의 결과는 $[\max(x_i), \infty)$=$[x_{(n)}, \infty)$이다.

 

마지막으로, $L(\theta)$는 $\theta < x_{(n)}$에서 $0$이고, $\theta \ge x_{(n)}$에서 ($\cfrac{1}{\theta^n}$)이므로 $L(\theta|x)$가 최대가 되는 $\hat{\theta}^{MLE}=x_{(n)}$이다.

이 경우 log-likelihood를 이용하지 않아도 MLE를 구할 수 있다. (log-likelihood를 이용하여도 감소함수라는 정보밖에 얻을 수 없다.)

반응형

Exponential distribution

$(x_1, \dots, x_n)$이 $Exp(\lambda)$의 sample일 때 MLE를 구해보자.

likelihood를 구하면

\[ \displaystyle L(\theta | x_1, \dots, x_n) = \Pi_{i=1}^{n} \lambda e^{\lambda x_i} \]

log-likelihood를 구하면

\[ l(\lambda| x_1, \dots, x_n) = n\log\lambda - \lambda \sum_{i=1}^{n}x_i \]

$\cfrac{\partial l(\lambda |x)}{\partial \lambda}=\cfrac{n}{\lambda} - \sum_{i=1}^{n} x_i = 0. \quad \hat{\lambda} = \cfrac{n}{\sum_{i=1}^{n} x_i} = 1 / \overline{x}$ 이므로 $\hat{\lambda}$에서 극값을 갖고,

$\cfrac{\partial^2 l(\lambda | x)}{\partial \lambda^2} = -\cfrac{n}{\lambda} < 0$ 이므로 $\hat{\lambda}$에서 최솟값을 갖는다.

따라서 MLE는 $\hat{\lambda} = 1 / \overline{x}$ 이다.

 

Normal distribution

정규분포는 2개의 parameter $\mu, \sigma^2$을 갖는다. 즉 2개의  MLE $\hat{\mu},\ \hat{\sigma^2}$를 구해보자.

likelihood를 구하면

\[ L(\mu, \sigma^2 | x) = (2 \pi \sigma^2)^{-n/2} \text{exp}\left[ -\cfrac{n(\overline{x} -\mu)^2}{2 \sigma^2} \right] \text{exp}\left[ -\cfrac{\sum_{i=1}^{n}(x_i - \overline{x})^2}{2 \sigma^2} \right] \]

log-likelihood를 구하면

\[ l(\mu, \sigma^2 | x) = -\cfrac{n}{2}\log(2 \pi \sigma^2) - \cfrac{n(\overline{x} - \mu)^2}{2\sigma^2} - \cfrac{\sum_{i=1}^{n}(x_i - \overline{x})^2}{2 \sigma^2} \]

 

$\mu$의 MLE를 구해보자.

$\cfrac{\partial l(\mu, \sigma^2 | x)}{\partial \mu} = \cfrac{2n(\overline{x} - \mu)}{2\sigma^2} = 0. \quad \hat{\mu} = \overline{x}$

 

$\sigma^2$의 MLE를 구해보자.

$\cfrac{\partial l(\mu, \sigma^2 | x)}{\partial \sigma^2} = -\cfrac{n}{2\sigma^2} + \cfrac{\sum_{i=1}^{n}(x_i - \overline{x})^2}{2\sigma^4} = 0. \quad \hat{\sigma}^2 = \cfrac{1}{n}\sum_{i=1}^{n}(x_i - \overline{x})^2$

Note: MLE로 구한 정규분포의 분산의 추정량은 biased estimator이다.

 

728x90
반응형