728x90 반응형 multi-armed bandit3 [CS246] Bandits (4) - Thompson Sampling Thompson Sampling: Probability-Based Bandit Algorithm Thompson sampling은 각 행동이 최적인 확률에 비례하여 세션을 arm에 할당한다.결과분포는 집합 {0,1} 으로 가정한다.이는 각 행동은 성공(1) 또는 실패(0)를 의미한다.그리고 확률 θ 로 동전을 던지면 이 동전은(동전의 결과는) 베르누이 분포를 따른다.그리고 θ를 추정하기 위해 0과 1의 개수를 세어간다. k개의 arm이 있고, 각 arm의 파라미터를 θi라 하자.즉 \( \boldsymbol{\theta} = ( \theta_1, \theta_2, \dots, \thet.. 2024. 10. 26. [CS246] Bandits (3) - UCB1 Algorithm UCB: Upper confidence sampling algorithm Confidence Intervalsconfidence interval(신뢰구간)은 특정 확률로 평균이 있다는 확신할 수 있는 값의 범위이다.단순 확률로 해석하기 어렵다. 필요하면 아래 신뢰구간(confidence interval)과 신용구간(credible interval)을 참고.https://trivia-starage.tistory.com/175 [Bayesian Learning] Frequentism vs BayesianismIntroduction to Bayesian 통계적 방법으로 빈도주의(frequentism)과 베이지안(bayesianism)이 있고 이 둘의 차이를 정리해보았다. 빈도주의 관점 (Frequentism).. 2024. 3. 6. [CS246] Bandits (1) - Problem Settings Multi-Armed Bandit: Learning through Experimentation세상에는 탐색을 통해 특정 전략을 수립할 필요가 있다.구글 광고:광고 수익을 최대화 하고 싶어한다. 과거에는 pay by impression(CPM) 전략을 사용했으나 광고 효과(effectiveness)는 알 수 없었다는 점이 문제였다. 현재는 pay per click(CPC) 전략을 사용하고 있으며 기대수익(expected revenue)를 찾는 것이 핵심이다.query q에 대하여 광고 a의 기대수익은 다음과 같이 계산된다.E[revenuea,q]=P(clicka|q)⋅amounta,qq의 a의 입찰(bid)는 $.. 2024. 2. 23. 이전 1 다음 728x90 반응형