Reinforcement1 2.2 Action-value Methods "action value"인 Qt(α)를 추정하고 이를 사용하여 행동을 결정하는 몇 가지 간단한 방법들을 살펴볼 것이다. 이 장에서는 행동 α의 실제(true/actual value)값을 q(α)로 표시하고 t번째 단계에서의 추정값은 Qt(α)로 표기한다. 한 가지 방법은 실제로 t시점 까지 받은 보상을 averaging(평균화)하는 것이다. $$Q_t(\alpha) = \frac{\text{sum of rewrads when } \alpha \text{ taken prior to } t}{\text{number of times } \alpha \text{ taken prior to } t} = \frac{\sum_{i=1}^{t-1}R_i \.. 2020. 7. 24. 이전 1 다음