Reinforcement Learning (d.silver)
2.3 The 10-armed Testbed
Keep It Simple, Stupid!
2020. 7. 24. 03:30
2.2에서 다룬 내용 기준으로 test 한 결과를 설명한다.
The 10-armed Testbed
- $k$ = 10 , 즉 서로 다른 슬롯 머신, action = 10 가지 ($\alpha = 1, ..., 10$)
- 슬롯머신 2000번 실행
- 각 Action에 대해 Reward는 $\mathbb{N}(0, 1^2)$ 의 정규 분포로 받음
![]() |
위에서 분포가 어떻게 그려지는지 생각해보자...