본문 바로가기
728x90
반응형

Bayesian12

[Bayesian] Bayesian Linear Regression (베이지안 선형 회귀) Bayesian Linear RegressionPriorlikelihood가 가우시안이므로 prior 역시 가우시안이다. \[ p(\theta)=\mathcal{N}(\theta|m, S) \]$m$은 평균, $S$는 공분산행렬이다. Posterior$\theta$의 posterior distribution 역시 가우시안임이 알려져있다.\begin{align} p(\theta | \mathcal{D}) &= \mathcal{N}(\theta|m_{\mathcal{D}}, S_{\mathcal{D}}) \\ S_{\mathcal{D}}^{-1} &= S^{-1} + \Phi^\top\Phi / \sigma^2 \\ m_{\mathcal{D}} &= S_{\mathcal{D}}(S^{-1}m + \Phi^\.. 2024. 5. 8.
[Sampling] Markov Chain Monte Carlo (MCMC) (5) - Diagnosis MCMC diagnosis: convergence, correlations, CLT, effective sample size (ESS) MCMC: Pros and Cons(+) high dimensional data에서 잘 동작한다.(+) Metropolis-Hastings 알고리즘과 같이 general-purpose sampler로 확장이 쉽다(+) 구현이 쉬운 편이다(-) sequential한 성질 때문에 대규보 데이터로 확장이 어렵다 (not really scalable)(-) 어떤 chain이 target distribution에 도달하는지 명확하지 않다.(-) 수렴 지표가 명확하지 않다.그렇다면 무엇이 더 좋은 MCMC 알고리즘으로 만들까?좋은 MCMC는, high-density 영역에 오래 머.. 2024. 3. 19.
[Bayesian] Evidence lower bound (ELBO) and EM-algorithm Evidence lower bound (ELBO)파라미터가 $\theta$이고 latent variable이 $z$인 확률모델을 생각해보자. $z$를 적분하여 marginal을 구할 수 있다.\[ p(x; \theta) = \int p(x, z; \theta) dz \] non-Bayesian modeling에서는 log-likelihood를 최대로 만드는 $\theta^*$를 찾는데 관심을 갖는다. 즉\begin{align} \theta^* &= \underset{\theta}{\mathrm{argmax}} \log p(x;\theta) \\ &= \underset{\theta}{\mathrm{argmax}} \log \int p(x, z; \theta) dz \end{align} 그러나 만일 적분이 .. 2023. 11. 11.
[Sampling] Markov Chain Monte Carlo (MCMC) (4) - Slice sampling Slice Samplingproposal distribution 없이 $p(x)$ 또는 $\tilde{p}(x)$로부터 직접 샘플링하는 방법이다.일반적으로 univariate multi-modal distribution에 유용하다.(논문저자 Radford M. Neal에 따르면 multivariate의 경우에도 slice sampling을 변형하여 샘플링 할 수 있다. 여기서는 생략) Algorithmslice variable $u$를 도입한다. (책에 따라 auxiliary variable, additional variable이라고도 한다.)\[ p(x,u) = \cfrac{\mathbf {1}_{ \{ 0 \le u \le \tilde{p}(x) \} } }{Z}, \ \int_0^{\tilde{p}.. 2023. 10. 15.
[Sampling] Markov Chain Monte Carlo (MCMC) (3) - Gibbs sampling Gibbs SamplingGibbs sampling은 MCMC 기법 중에서 Metropolis-Hastings 알고리즘의 특수한 형태이다.확률변수가 다음과 같을 때 사용할 수 있다.$x = [x_1, x_2, \dots, x_d]^\top$이고 target distribution이 $p(x)$일 때 다음을 만족하면 Gibbs sampling을 적용할 수 있다.\[ x_i \sim p(x_i | x_1, \dots, x_{i-1}, x_{i+1}, \dots, x_d) \]$x_i$가 $x \setminus x_i$ condition에서 샘플링되는 조건이다.Gibbs sampling algorithm랜덤하게 $x^{(1)}$를 초기화한다.for $t=1, \dots$ do    $x^{(t+1)} = x^.. 2023. 10. 14.
[Sampling] Markov Chain Monte Carlo (MCMC) (2) - Metropolis-Hastings Algorithm Metropolis-HastingsMCMC에서 가장 많이 사용되는 알고리즘 중 하나이다.임의의 target distribution에 대하여 이 알고리즘을 적용할 수 있다는 것이 장점이다.물론 proposal distribution $q(x'|x)$와 unnormalized distribution $\tilde{p}(x)$는 필요하다.그러나 full target distribution $p(x)$는 필요하지 않다.이 알고리즘의 퀄리티는 proposal distribution $q(x'|x)$에 달려있다. Metropolis-Hastings Algorithm$x^{(1)}$을 랜덤하기 초기화한다.for $t=1, \dots$ do    Propose $x' \sim q(x'|x^{(t)})$    accep.. 2023. 10. 4.
728x90
반응형