摘要: RL学习路线 记录强化学习入门的相关算法及实现。 DP Policy Evaluation 通过以下步骤进行 同步backup ,从而 评估 一个给定的 policy : 1. 在第 $k+1$ 轮, 2. 对于所有状态 $s\in S$, 3. 更新 $v_{k+1}(s)=\sum_{a\in\ 阅读全文
posted @ 2018-01-28 18:38 &ATM 阅读(587) 评论(0) 推荐(0) 编辑
……