본문 바로가기
728x90
반응형

분류 전체보기249

[Sampling] Markov Chain Monte Carlo (MCMC) (5) - Diagnosis MCMC diagnosis: convergence, correlations, CLT, effective sample size (ESS) MCMC: Pros and Cons (+) high dimensional data에서 잘 동작한다. (+) Metropolis-Hastings 알고리즘과 같이 general-purpose sampler로 확장이 쉽다 (+) 구현이 쉬운 편이다 (-) sequential한 성질 때문에 대규보 데이터로 확장이 어렵다 (not really scalable) (-) 어떤 chain이 target distribution에 도달하는지 명확하지 않다. (-) 수렴 지표가 명확하지 않다. 그렇다면 무엇이 더 좋은 MCMC 알고리즘으로 만들까? 좋은 MCMC는, high-density .. 2024. 3. 19.
[CS246] Bandits (3) - UCB1 Algorithm UCB: Upper confidence sampling algorithm Confidence Intervals confidence interval(신뢰구간)은 특정 확률로 평균이 있다는 확신할 수 있는 값의 범위이다. 단순 확률로 해석하기 어렵다. 필요하면 아래 신뢰구간(confidence interval)과 신용구간(credible interval)을 참고. https://trivia-starage.tistory.com/175 [Bayesian Learning] Frequentism vs Bayesianism Introduction to Bayesian 통계적 방법으로 빈도주의(frequentism)과 베이지안(bayesianism)이 있고 이 둘의 차이를 정리해보았다. 빈도주의 관점 (Frequent.. 2024. 3. 6.
Double Descent: new approach of bias-variance trade-off Double Descent: Modern approach of bias-variance trade-off classic ML의 관점에서, bias-variance trade-off는 model complexity와 관련있다. 이전 포스트를 참고해도 좋다. https://trivia-starage.tistory.com/238 Overfitting을 막는 방법들 (regularization, cross-validation, early stopping) Overfitting and Regularization ※ The blog post is based on lecture materials from Xavier Bresson, a professor at the National University of Singa.. 2024. 3. 3.
Overfitting을 막는 방법들 (regularization, cross-validation, early stopping) Overfitting and Regularization※ The blog post is based on lecture materials from Xavier Bresson, a professor at the National University of Singapore. The lecture materials can be found on the professor's LinkedIn. You can also found it at [1]. Under-fitting and over-fittingUnderfittinglearner가 충분한 표현력을 가지지 못함.training set에서 error를 생성.training/testing error 모두 높다.방지 방법: learner의 expressivity(또는 c.. 2024. 3. 2.
[CS246] Bandits (2) - Epsilon-Greedy Algorithm Epsilon-Greedy Algorithm Algorithm For $t=1:T$ 동안 다음의 단계로 Explore/Exploit를 결정한다. $\epsilon_t = O(\frac{1}{t})$. $\epsilon_t$는 time $t$가 지날때마다 $1/t$로 감소한다 $\epsilon_t$의 확률로 Explore: arm은 uniformly at random하게 선택하고, 선택된 arm을 탐색 $1-\epsilon_t$의 확률로 Exploit: empirical mean이 가장 높은 arm을 선택한다. Auer et al. 에 따르면, 적절한 $\epsilon_t$를 고르면 다음이 성립한다고 한다. \[ R_T = O(k \log T) \Rightarrow \cfrac{R_T}{T} = O\lef.. 2024. 2. 27.
[CS246] Bandits (1) - Problem Settings Multi-Armed Bandit: Learning through Experimentation 세상에는 탐색을 통해 특정 전략을 수립할 필요가 있다. 구글 광고: 광고 수익을 최대화 하고 싶어한다. 과거에는 pay by impression(CPM) 전략을 사용했으나 광고 효과(effectiveness)는 알 수 없었다는 점이 문제였다. 현재는 pay per click(CPC) 전략을 사용하고 있으며 기대수익(expected revenue)를 찾는 것이 핵심이다. query $q$에 대하여 광고 $a$의 기대수익은 다음과 같이 계산된다. \[ E[\text{revenue}_{a, q}] = P(\text{click}_a | q) \cdot \text{amount}_{a,q} \] $q$의 $a$의 입찰(b.. 2024. 2. 23.
728x90
반응형