e-greedy action1 2.2 Action-value Methods "action value"인 $Q_t(\alpha)$를 추정하고 이를 사용하여 행동을 결정하는 몇 가지 간단한 방법들을 살펴볼 것이다. 이 장에서는 행동 $\alpha$의 실제(true/actual value)값을 $q(\alpha)$로 표시하고 $t$번째 단계에서의 추정값은 $Q_t(\alpha)$로 표기한다. 한 가지 방법은 실제로 $t$시점 까지 받은 보상을 averaging(평균화)하는 것이다. $$Q_t(\alpha) = \frac{\text{sum of rewrads when } \alpha \text{ taken prior to } t}{\text{number of times } \alpha \text{ taken prior to } t} = \frac{\sum_{i=1}^{t-1}R_i \.. 2020. 7. 24. 이전 1 다음