2.2에서 다룬 내용 기준으로 test 한 결과를 설명한다.
The 10-armed Testbed
- $k$ = 10 , 즉 서로 다른 슬롯 머신, action = 10 가지 ($\alpha = 1, ..., 10$)
- 슬롯머신 2000번 실행
- 각 Action에 대해 Reward는 $\mathbb{N}(0, 1^2)$ 의 정규 분포로 받음
위에서 분포가 어떻게 그려지는지 생각해보자...
'Reinforcement Learning (d.silver)' 카테고리의 다른 글
[강화학습] Lecture 2. Markov Decision Processes I (0) | 2021.03.30 |
---|---|
2.2 Action-value Methods (0) | 2020.07.24 |
댓글