728x90 반응형 Bayesian12 [Sampling] Markov Chain Monte Carlo (MCMC) (1) - Markov chains Motivation(앞에서와 마찬가지로) Monte-Carlo method로 기댓값을 근사하고 싶다.\[ \cfrac{1}{n} \sum_{i=1}^{n} f(x_i) \overset{\text{a.s.}}{\to} \mathbb{E}_{p(x)}[f(x)], \quad x_1, \dots, x_n \overset{\text{i.i.d.}}{\sim} p(x) \] rejection sampling과 importance sampling은 $p(x)$ 대신 샘플링이 쉬운 $q(x)$를 이용했다. (indirectly sample from distributions easier to sample) 그러나 i.i.d. 샘플링은 고차원 데이터(high-dimensional data)에는 적합하지 않다. 이전 샘플.. 2023. 9. 28. [Sampling] Importance Sampling Motivation여태 샘플링 기법을 배운 이유는, 기댓값을 계산(혹은 근사)하기 위한 단계였다.\[ \mathbb{E}_{p(x)}[f(x)] \approx \cfrac{1}{m}\sum_{s=1}^{m} f(x_s), \quad x_1, \dots, x_m \overset{\text{i.i.d.}}{\sim} p(x) \] 그렇다면, 샘플링 없이 $p(x)$로부터 직접 기댓값을 구할 수 있는 방법은 없을까? Importance Sampling (IS)Method$q(x)$는 proposal distribution으로 샘플링이 쉬운 분포라 하자.그리고 $q(x)=0$이면 $p(x)=0$이고, $q(x) \neq 0$이면 역시 $p(x) \neq 0$라 하자. (비율을 정의하기 위함)그러면 기댓값은 다음.. 2023. 9. 27. [Sampling] Rejection Sampling Rejection SamplingIntroduction이제 샘플링 할 분포가 간단한 분포함수가 아니고 매우 복잡한 분포라고 하자. 심지어 적분도 쉽지 않다면 정규화 상수도 구할 수 없다.베이지안으로 예를 들면, posterior를 계산할 때 이런일이 발생한다.\[ p(\theta | X) = \cfrac{p(X | \theta) p(\theta)}{p(X)} \]이때 분모의 $p(X)$는 marginal을 구하는 것인데 $p(X) = \int p(X, \theta) d \theta$를 구하는 것은 많은 경우에 불가능하다. 일반적인 notation으로, 우리가 알고 있는 분포(PDF가 아니어도 된다.)를 $\tilde{p}(x)$라 하고, 적분값이 $1$이 되도록하는 정규화상수를 $Z$라 한다. 이때 ta.. 2023. 9. 26. [Sampling] Sampling from standard distributions Why sampling is important?bayesian inference는 기댓값은 계산하는 방법이다. (discrete한 경우엔 적분이 아니라 합계가 된다.)\[ \mathbb{E}_{p(\theta | X)}[f(\theta)] = \int f(\theta) p(\theta | X) d\theta \] 그러나 위 정의대로 정확히 계산하는 것은 불가능(exact inference is intractable)한 경우가 많기 때문에, 우리는 Monte Carlo method를 이용하여 기댓값을 근사한다.\[ \mathbb{E}_{p(\theta | X)}[f(\theta)] \approx \cfrac{1}{m}\sum_{s=1}^{m}f(\theta_s), \quad \theta_1, \dots \.. 2023. 9. 25. [Bayesian] Exponential Family & Conjugate Priors (지수족, 켤레사전분포) Exponential Family확률변수 $X$의 확률밀도함수(또는 확률질량함수)가 다음을 만족하면, $X$는 지수족이라고 한다.\[ p(x|\eta) = \exp( T(x)^\top \eta - \mathbb{1}^\top A(\eta) - B(x) ) \]이때 $T(x)$는 충분통계량, $\eta$는 natural parameter, $A(\eta)$는 log-partition function, $B(x)$는 base measure 이다.Example 1: Bernoulli distribution베르누이 분포의 확률질량함수는 다음과 같다.\[ p(x|\theta) = \theta^{x} (1-\theta)^{1-x} = \exp\left(x \log \cfrac{\theta}{1-\theta} \ri.. 2023. 9. 13. [Bayesian] Frequentism vs Bayesian (빈도주의 vs 베이지안) Introduction to Bayesian 통계적 방법으로 빈도주의(frequentism)과 베이지안(bayesianism)이 있고 이 둘의 차이를 정리해보았다. 빈도주의 관점 (Frequentism)확률은 반복된 시행으로 일어나는 사건의 횟수이다.파라미터 $\theta$는 고정되어있기에 $\theta$의 횟수를 정의하는 것은 의미가 없다.대신 $X$에 대한 반복 시행에 관심이 있다.베이지안 관점 (Bayesianism)확률은 사건의 불확실성을 의미한다. (quantification of uncertainty)따라서 파라미터 $\theta$의 확률(불확실성)을 정의하는 것이 자연스럽다. $p(\theta)$데이터 $X$가 관찰된 이후의 $\theta$의 확률(불확실성)에 관심이 있다. 이를 사후확률 p.. 2023. 8. 29. 이전 1 2 다음 728x90 반응형