Loading [MathJax]/jax/output/CommonHTML/jax.js

본문 바로가기

greedy action1

2.2 Action-value Methods "action value"인

$Q_t(\alpha)$ 를 추정하고 이를 사용하여 행동을 결정하는 몇 가지 간단한 방법들을 살펴볼 것이다. 이 장에서는 행동

$\alpha$ 의 실제(true/actual value)값을

$q(\alpha)$ 로 표시하고

$t$ 번째 단계에서의 추정값은

$Q_t(\alpha)$ 로 표기한다. 한 가지 방법은 실제로

$t$ 시점 까지 받은 보상을 averaging(평균화)하는 것이다. $$Q_t(\alpha) = \frac{\text{sum of rewrads when } \alpha \text{ taken prior to } t}{\text{number of times } \alpha \text{ taken prior to } t} = \frac{\sum_{i=1}^{t-1}R_i \.. 2020. 7. 24.

이전 1 다음

티스토리툴바