본문 바로가기

728x90

multi-armed bandits1

[CS246] Bandits (2) - Epsilon-Greedy Algorithm Epsilon-Greedy AlgorithmAlgorithmFor

t = 1 : T

동안 다음의 단계로 Explore/Exploit를 결정한다.

ϵ_{t} = O (\frac{1}{t})

ϵ_{t}

t

가 지날때마다

1 / t

로 감소한다

ϵ_{t}

의 확률로 Explore: arm은 uniformly at random하게 선택하고, 선택된 arm을 탐색

1 - ϵ_{t}

의 확률로 Exploit: empirical mean이 가장 높은 arm을 선택한다. Auer et al. 에 따르면, 적절한

ϵ_{t}

를 고르면 다음이 성립한다고 한다.\[ R_T = O(k \log T) \Rightarrow \cfrac{R_T}{T} = O\left( \cf.. 2024. 2. 27.

이전 1 다음

728x90

티스토리툴바