2019 年 2月 21 日随笔档案 - paulonetwo

2019年2月21日

机器学习工程师 - Udacity 强化学习 Part Five

摘要：六、时间差分方法 1.给定一个策略，如何估算其值函数？在蒙特卡洛方法中，智能体以阶段形式与环境互动，一个阶段结束后，我们按顺序查看每个状态动作对，如果是首次经历，则计算相应的回报并使用它来更新动作值。我们经历了很多很多个阶段。需要注意的是，只要我们不在阶段之间更改策略，该算法就可以解决预测问题，只要阅读全文

posted @ 2019-02-21 20:54 paulonetwo 阅读(640) 评论(0) 推荐(0) 编辑

paulonetwo

机器学习工程师 - Udacity 强化学习 Part Five

导航

公告