본문 바로가기

728x90

prior1

[CS246] Bandits (4) - Thompson Sampling Thompson Sampling: Probability-Based Bandit Algorithm Thompson sampling은 각 행동이 최적인 확률에 비례하여 세션을 arm에 할당한다.결과분포는 집합

{0, 1}

으로 가정한다.이는 각 행동은 성공(

1

) 또는 실패(

0

)를 의미한다.그리고 확률

θ

로 동전을 던지면 이 동전은(동전의 결과는) 베르누이 분포를 따른다.그리고

θ

를 추정하기 위해

0

1

의 개수를 세어간다.

k

개의 arm이 있고, 각 arm의 파라미터를

θ_{i}

라 하자.즉 \( \boldsymbol{\theta} = ( \theta_1, \theta_2, \dots, \thet.. 2024. 10. 26.

이전 1 다음

728x90

티스토리툴바