2020 年 6月 21 日随笔档案 - Respirar

2020年6月21日

摘要： 1.Policy Evaluation(Prediction) 假如环境模型是完全知道的（就是知道环境的Dynamics），那么就可以将Bellman方程作为更新的原则来求的贝尔曼方程解，进而获得状态值函数vπ的解。其中计算状态值函数vπ就叫做Policy Evaluation。另外，当k趋近于无阅读全文

posted @ 2020-06-21 20:54 Respirar 阅读(166) 评论(0) 推荐(0) 编辑

第3章：有限马尔科夫决策过程

摘要： 1.Agent-Environment接口 Agent是学习者和决策制定者，环境是由一切Agent之外的东西组成。下图是马尔科夫决策过程的agent和environment交互过程。如果说一个状态包含关于过去agent-env交互的全部信息，并且这个交互会对未来造成一定的影响，那么称这个状态具有马阅读全文

posted @ 2020-06-21 20:51 Respirar 阅读(325) 评论(0) 推荐(1) 编辑

Alpha

在学习的过程中，点滴都是经验，快来和我分享吧

公告