본문 바로가기

Reinforcement Learning (d.silver)3

[강화학습] Lecture 2. Markov Decision Processes I 2021-1학기 서강대 김홍석 교수님 강의 내용을 바탕으로 본 글을 작성하였습니다. Overview Markov Processes Markov Reward Processes Markov Decision Processes Entensions to MDPs ch2는 model based 기반 MRP, MDP에 대한 정의 및 예제를 다루고자 한다. 이후 ch3에서 MDP를 푸는 방법을 다룰 것이다. 1. Markov Processes ▶ Introduction to MDPs MDPs (Markov decision processes) formally describe an environment for reinforcement learning Where the environment is fully observabl.. 2021. 3. 30.
2.3 The 10-armed Testbed 2.2에서 다룬 내용 기준으로 test 한 결과를 설명한다. The 10-armed Testbed $k$ = 10 , 즉 서로 다른 슬롯 머신, action = 10 가지 ($\alpha = 1, ..., 10$) 슬롯머신 2000번 실행 각 Action에 대해 Reward는 $\mathbb{N}(0, 1^2)$ 의 정규 분포로 받음 위에서 분포가 어떻게 그려지는지 생각해보자... 2020. 7. 24.
2.2 Action-value Methods "action value"인 $Q_t(\alpha)$를 추정하고 이를 사용하여 행동을 결정하는 몇 가지 간단한 방법들을 살펴볼 것이다. 이 장에서는 행동 $\alpha$의 실제(true/actual value)값을 $q(\alpha)$로 표시하고 $t$번째 단계에서의 추정값은 $Q_t(\alpha)$로 표기한다. 한 가지 방법은 실제로 $t$시점 까지 받은 보상을 averaging(평균화)하는 것이다. $$Q_t(\alpha) = \frac{\text{sum of rewrads when } \alpha \text{ taken prior to } t}{\text{number of times } \alpha \text{ taken prior to } t} = \frac{\sum_{i=1}^{t-1}R_i \.. 2020. 7. 24.