본문 바로가기
스터디/확률과 통계

Method of Moments vs Maximum Likelihood Estimate (MOM, MLE, 적률추정법, 최대우도추정법)

by 궁금한 준이 2024. 4. 30.
728x90
반응형

 

Method of Moments & Maximum Likelihood Estimate

간단하게 적률추정법(MOM)과 최대우도추정법(MLE)를 설명하고 비교해보자.

Notation

공통되는 notation 정리

θ: parameter, 모수. 일반적으로 알 수 없다(unknown). μ, σ2은 모평균, 모분산으로 population이기 때문에 일반적으로 알 수 없다.

θ^: estimator, 모수 추정량. 

X: 확률변수

x, x1,x2,,xn: data, observation, 실제 관찰(관측)된 값

X¯: 확률변수로의 표본평균

x¯: 실제 관측 값의 표분평균

S2: 확률변수로의 표본분산

s2: 실제 관측 값의 표본분산

p(x), f(x): 확률 질량/밀도 함수(pmf, pdf)

 

Method of Moments (MOM, MME)

관측된 데이터셋 x1,,xn가 unknown parameter θ에 의해 생성되었다고 하자.
이때 parameter 개수에 따라 E(Xk)=1ni=1nxik를 계산하여 parameter를 계산한다.

일반적으로 일변수의 경우 E(X)=x¯만 계산해도 충분하며, parameter가 2개인 경우 E(X)=x¯Var(X)=s2을 연립하여 parameter를 추정한다.

 

Example: Uniform distribution

U(0,θ)에서 8개의 데이터 2.0, 2.4, 3.1, 3.9, 4.5, 4.8, 5.7, 9.9를 얻었다고 하자.

적률추정법을 이용하여 θ를 추정해보자.

E(X)=θ2=4.5375이므로 우리가 추정한 모수는 θ^=9.075이다.

그러나 우리가 추정한 θ^=9.075로는 생성된 데이터 9.9를 얻을 수 없다!

 

적률추정법은 쉽고 합리적(sensible)이지만, 항상 적절한 값으로 추정하는 것은 아니다.

 

Maximum Likelihood Estimate (MLE)

관측된 데이터셋 x1,,xnk개의 unknown parameter θ=(θ1,,θk)에 의해 생성되었다고 하자. 이때 jointly likelihood function은 다음과 같다.
L(x1,,xn;θ1,,θk)=i=1nf(xi;θ1,,θk)

이때 L(θ)의 값이 최대가 되는 θ로 parameter를 추정한다.

 

Example: Normal distribution

정규분포는 parameter가 2개인 분포함수다.

likelihood를 구하면 

L(x1,,xn;μ,σ2)=(2πσ2)n/2exp(i=1n(xiμ)22σ2)

일반적으로 미분이 가능한 경우, log-likelihood를 이용하여 미분 계산을 쉽게 한다.

 

l(x1,,xn;μ,σ2)=lnL(μ,σ2)=n2ln(2πσ2)i=1n(xiμ)22σ2

 

l(μ,σ2)μ=i=1n(xiμ)2σ2

원래 식이 이차식이므로 위 식이 최솟값이 되는 μ^=1nixi=x¯이다.

 

l(μ,σ2)σ2=n2σ2+i=1n(xiμ)2σ4

위에서 구한 μ^=x¯을 대입하고(식 연립) 위 편미분 식이 0이 되는 지점을 구하면 σ^2=1ni(xix¯)2

 

Example: Uniform distribution

위에 적률추정법으로 추정한 θ는 실제론 불가능한 parameter였다.

MLE로 추정한 값은 θ^=max(x1,,xn)=9.9이다. (참고: https://trivia-starage.tistory.com/144)

따라서 MLE로 추정한 값은 reasonable하다고 할 수 있다.

 

Does MLE always win?

그러면 MLE만 사용하면 되는 것 아닌가?

그렇지 않다. 

 

Example: Beta distribution

Beta(α,β)에서 추출된 데이터가 다음과 같다고 하자.

0.28 0.32 0.09 0.35 0.45 0.41 0.06

0.16 0.16 0.46 0.35 0.52 0.29 0.31

 

MLE로 두 parameter α,β를 추정해보자.

L(α,β)=i=1nΓ(α+β)Γ(α)Γ(β)xα1(1x)β1=(Γ(α+β)Γ(α)Γ(β))n(x1xn)α1((1x1)(1xn))β1

 

log-likelihood를 구하면

l(α,β)=nlnΓ(α+β)nlnΓ(α)nlnΓ(β)+(α1)ilnxi+(β1)iln(1xi)

여기서 l() 값이 최대가 되는 지점을 찾기 위해 Γ(x)를 미분해야하는 상황에 만난다.

일반적으로 감마함수를 직접 미분하는것은 불가능하고, 특별한 방법을 이용하여 구할 수 있다.

(ψ(x)=ddxlnΓ(x)로 새로 정의하고, Γ(x)=Γ(x)ψ(x) 성질을 이용한다.)

(그리고 ψ(x)=γ+n=0(1n+11n+x)라는 성질도 이용한다. 여기서 γ는 Euler-Mascheroni constant이다.)

 

실제로는 gradient descent와 같은 별도의 최적화를 통해 parameter α,β를 구한다.

(그래서 통계 연습문제의 베타분포의 추정은 Beta(α,1)과 같이 한쪽이 상수이다)

 

method of moments를 이용해서 베타분포의 parameter를 추정해보자.

E(X)=αα+β,Var(X)=αβ(α+β)2(α+β+1)

임을 알고 있으니 이를 이용한다.

주어진 데이터를 통해 x¯=0.3007이고 s2=0.01966이므로 E(X)Var(X)를 연립하면 

α^=2.92,β^=6.78

이라는 추정량을 (비교적 쉽게) 얻을 수 있다.

728x90
반응형