본문 바로가기
Reinforcement Learning (d.silver)

2.3 The 10-armed Testbed

by Keep It Simple, Stupid! 2020. 7. 24.

  2.2에서 다룬 내용 기준으로 test 한 결과를 설명한다.

The 10-armed Testbed


  • $k$ = 10 , 즉 서로 다른 슬롯 머신, action = 10 가지 ($\alpha = 1, ..., 10$)
  • 슬롯머신 2000번 실행
  • 각 Action에 대해 Reward는 $\mathbb{N}(0, 1^2)$ 의 정규 분포로 받음

 위에서 분포가 어떻게 그려지는지 생각해보자...

댓글