728x90 반응형 prior1 [CS246] Bandits (4) - Thompson Sampling Thompson Sampling: Probability-Based Bandit Algorithm Thompson sampling은 각 행동이 최적인 확률에 비례하여 세션을 arm에 할당한다.결과분포는 집합 \( \{ 0, 1 \} \) 으로 가정한다.이는 각 행동은 성공($1$) 또는 실패($0$)를 의미한다.그리고 확률 \( \theta \) 로 동전을 던지면 이 동전은(동전의 결과는) 베르누이 분포를 따른다.그리고 \( \theta \)를 추정하기 위해 \( 0 \)과 \( 1 \)의 개수를 세어간다. \( k \)개의 arm이 있고, 각 arm의 파라미터를 \( \theta_i \)라 하자.즉 \( \boldsymbol{\theta} = ( \theta_1, \theta_2, \dots, \thet.. 2024. 10. 26. 이전 1 다음 728x90 반응형