2019年2月21日

机器学习工程师 - Udacity 强化学习 Part Five

摘要: 六、时间差分方法 1.给定一个策略,如何估算其值函数?在蒙特卡洛方法中,智能体以阶段形式与环境互动,一个阶段结束后,我们按顺序查看每个状态动作对,如果是首次经历,则计算相应的回报并使用它来更新动作值。我们经历了很多很多个阶段。需要注意的是,只要我们不在阶段之间更改策略,该算法就可以解决预测问题,只要 阅读全文

posted @ 2019-02-21 20:54 paulonetwo 阅读(623) 评论(0) 推荐(0) 编辑

导航