티스토리

DeepHaejoong

검색하기

2.3 The 10-armed Testbed

Reinforcement Learning (d.silver)

2.3 The 10-armed Testbed

Keep It Simple, Stupid! 2020. 7. 24. 03:30

2.2에서 다룬 내용 기준으로 test 한 결과를 설명한다.

The 10-armed Testbed

$k$ = 10 , 즉 서로 다른 슬롯 머신, action = 10 가지 ($\alpha = 1, ..., 10$)
슬롯머신 2000번 실행
각 Action에 대해 Reward는 $\mathbb{N}(0, 1^2)$ 의 정규 분포로 받음

위에서 분포가 어떻게 그려지는지 생각해보자...

저작자표시