728x90 반응형 prior1 [CS246] Bandits (4) - Thompson Sampling Thompson Sampling: Probability-Based Bandit Algorithm Thompson sampling은 각 행동이 최적인 확률에 비례하여 세션을 arm에 할당한다.결과분포는 집합 {0,1} 으로 가정한다.이는 각 행동은 성공(1) 또는 실패(0)를 의미한다.그리고 확률 θ 로 동전을 던지면 이 동전은(동전의 결과는) 베르누이 분포를 따른다.그리고 θ를 추정하기 위해 0과 1의 개수를 세어간다. k개의 arm이 있고, 각 arm의 파라미터를 θi라 하자.즉 \( \boldsymbol{\theta} = ( \theta_1, \theta_2, \dots, \thet.. 2024. 10. 26. 이전 1 다음 728x90 반응형