[Bayesian] Frequentism vs Bayesian (빈도주의 vs 베이지안)

728x90

Introduction to Bayesian

통계적 방법으로 빈도주의(frequentism)과 베이지안(bayesianism)이 있고 이 둘의 차이를 정리해보았다.

빈도주의 관점 (Frequentism)
- 확률은 반복된 시행으로 일어나는 사건의 횟수이다.
- 파라미터 $\theta$는 고정되어있기에 $\theta$의 횟수를 정의하는 것은 의미가 없다.
- 대신 $X$에 대한 반복 시행에 관심이 있다.
베이지안 관점 (Bayesianism)
- 확률은 사건의 불확실성을 의미한다. (quantification of uncertainty)
- 따라서 파라미터 $\theta$의 확률(불확실성)을 정의하는 것이 자연스럽다. $p(\theta)$
- 데이터 $X$가 관찰된 이후의 $\theta$의 확률(불확실성)에 관심이 있다. 이를 사후확률 posterior라 한다. $p(\theta | X)$
- $X$의 불확실성에는 관심이 없다.

coin toss를 예시로 빈도주의와 베이지안의 관점을 살펴보자.

Coin toss example

Coin toss example - a frequentist approach

동전던지기를 통해 얻은 $n$개의 결과가 다음과 같다고 하자. ($1$이 앞면, $0$이 뒷면이다.)

\[ X = (x_1, \dots, x_n), \quad x_i \in \{0, 1 \} \ \text{for} \ i=1, \dots, n \]

동전던지기는 베르누이 분포를 따른다고 가정하자.

\[ p(x;\theta) = \theta, \ \theta \in [0, 1], \quad E[x]=\theta, \ \text{Var}(x)=\theta (1 - \theta) \]

이를 바탕으로 $\theta$를 추정해보자.

데이터 $X$를 통해 추정량을 구하면

\[ \hat{\theta}(X) = \underset{\theta} {\mathrm{argmax}}\sum_{i=1}^{n}\log p(x_i;\theta) = \cfrac{1}{n}\sum_{i=1}^{n}x_i \]

데이터가 많을 수록 $\hat{\theta}$는 $\theta$에 가까워진다.

(빈도주의에 따르면) $\hat{\theta}$는 RV이므로 기댓값과 분산 역시 존재한다.

\[ E_{p_{data}(X)}[\hat{\theta}(X)] = \theta, \quad \text{Var}_{p_{data}(X)}[\hat{\theta}(X)] = \cfrac{\theta (1 - \theta)}{n} \]

CLT에 의하여 다음이 성립한다.

\[ \cfrac{\hat{\theta} - \theta}{\sigma / \sqrt{n}} \overset{d}\to N(0, 1) \]

그러나 우리는 true variance $\sigma^2$를 알 수 없다.

WLLN에 따르면

\[ \hat{\sigma}^2(X) := \hat{\theta}(X) (1 - \hat{\theta}(X)) \overset{p}\to \sigma^2 \]

continuous mapping theorem(연속사상정리)과 Slutsky's theorem(슬러츠키 정리)에 의하여 다음이 성립한다.

\[ \cfrac{\hat{\theta} - \theta}{\hat{\sigma} / \sqrt{n} } = \cfrac{\hat{\theta} - \theta}{\sigma / \sqrt{n}} \cdot \cfrac{\sigma}{\hat{\sigma}} \overset{d}\to N(0, 1) \]

이를 바탕으로 $100(1 - \alpha)\%$ Confidence Interval (CI)를 구하면

\[ \text{Pr}\left( \hat{\theta} - Z_{1 - \alpha/2}\cfrac{\hat{\sigma}}{\sqrt{n}} < \theta < \hat{\theta} + Z_{1 - \alpha/2}\cfrac{\hat{\sigma}}{\sqrt{n}} \right) \to 1-\alpha \]

(이때 $Z_{a}$는 $N(0, 1)$의 quantile 이다)

이때, 신뢰구간은 다음을 의미한다.

$p_{data}(x)$로부터 생성된 $X$가 많이 있을 때, 각 데이터셋 $X$로 CI를 계산하면 $1-\alpha$의 비율만큼 $\theta$가 CI에 포함된다.

Coin toss example - a bayesian approach

prior를 아래와 같이 베타분포를 따른다고 가정하자.

\[ p(\theta) = \text{Beta}(\theta; a, b) = \cfrac{\Gamma(a + b)}{\Gamma(a) \Gamma(b)} \theta^{a-1}(1-\theta)^{b-1} \]

$X$를 관찰한 후 posterior 역시 베타분포를 따른다

\[ p(\theta|X) = \text{Beta}\bigg( \theta; a + \sum_{i=1}^{n}x, \ b + \sum_{i=1}^{n}(1-x) \bigg) \]

신용구간(Credible Region, CR)은 다음과 같이 정의된다.

\[ \int_{L(X)}^{U(X)} p(\theta | X) \mathrm{d} \theta = 1-\alpha \]

위 적분을 해석하면 $X$를 관측한 이후 $\theta$가 $[L(X),\ U(X)]$에 있을 확률은 $(1-\alpha)$이다. (확률로 해석할 수 있다!)

Model selection for regression

데이터셋 $\mathcal{D} = (X, Y) = \{ (x_i, y_i) \}_{i=1}^{n}$ 이 주어져있고, $\mathcal{D}$가 어떤 함수 $y=f_{\theta}(x)$와 약간의 노이즈로부터 생성되었다고 하자.

\[ p(y|x;\theta) = \mathcal{N}(y|f_{\theta}(x), \sigma_y^2) \]

어떤 $f_{\theta}(x)$가 적절한가? (proper)

maximum linklihood를 적용하면 overfitting issue가 발생한다.

Frequentist approaches

Akaike Information Criterion (AIC)를 이용하여 보다 복잡한 모델에 패널티를 주자.

$k$가 파라미터의 개수라 할 때

\[ \text{AIC}(\mathfrak{m}) = 2k - \underset{\theta}\max \log p(Y|X;\theta, \mathfrak{m}) \]

혹은 더 많은 표본(sample)을 만드는 방법도 있다. (cross-validation, bootstrapping, etc)

Bayesian approaches

데이터의 marginal likelihood (혹은 evidence)를 정의한다

\[ p(Y|X; \mathfrak{m}) = \int p(Y|X, \theta; \mathfrak{m}) p(\theta) \rm{d} \theta \]

우리는 모델 $\frak{m}$을 확률변수로 취급할 수 있고 posterior를 구하면 다음과 같다

\[ p(\mathfrak{m}|X, Y) = \cfrac{p(Y|X, \mathfrak{m}) p(\mathfrak{m})}{p(Y|X)} \]

이를 이용하여 두 모델 $\mathfrak{m}_1, \mathfrak{m}_2$를 비교할때 Bayes factor를 이용한다.

\[ \cfrac{p(Y|X, \mathfrak{m}_1)}{p(Y|X, \mathfrak{m}_2)} \]

(확률에 대한 비율이므로 분모에 있는 모델이 더 강한 evidence를 갖는다고 해석한다. bayes factor가 $1$이면 no evidence를 의미한다.)

Summary

빈도주의
- 확률은 제한된 횟수(limiting frequencies)이다.
- 반복 시행이라는 환경에서 이해된다
- 모델의 파라미터는 고정값이다
- 일부 경우에, 현재 데이터 $X$는 중요하지 않을 수 있다
- 신뢰구간의 정의가 다소 이상하며(확률로 직관적으로 해석되지 않음), 모델 비교에 주의가 필요하다.
베이지안
- 확률은 불확실성(uncertainties)이다
- 파라미터와 모델을 불확실성으로 정의하는 것이 자연스럽다
- 신용구간과 베이즈 요인의 정의가 직관적이다
- 그러나 계산은 쉽지 않다. (computations may be non-trivial)

728x90

'스터디 > 인공지능, 딥러닝, 머신러닝' 카테고리의 다른 글

[Bayesian] Linear Modeling Settings (선형 회귀 모델링, MLE, Least Square, MAP, Ridge) (0)	2023.09.17
[Bayesian] Exponential Family & Conjugate Priors (지수족, 켤레사전분포) (0)	2023.09.13
[CS224w] Relational GCN (RGCN) (0)	2023.08.09
[CS224w] Motivation of Heterogeneous Graphs (0)	2023.08.08
[CS224w] Label Propagation on Graphs (3) - Correct & Smooth (C&S) (0)	2023.07.13

궁금한게많은joon

[Bayesian] Frequentism vs Bayesian (빈도주의 vs 베이지안)

Introduction to Bayesian

Coin toss example