摘要:
1.Policy Evaluation(Prediction) 假如环境模型是完全知道的(就是知道环境的Dynamics),那么就可以将Bellman方程作为更新的原则来求的贝尔曼方程解,进而获得状态值函数vπ的解。其中计算状态值函数vπ就叫做Policy Evaluation。 另外,当k趋近于无 阅读全文
摘要:
1.Agent-Environment接口 Agent是学习者和决策制定者,环境是由一切Agent之外的东西组成。下图是马尔科夫决策过程的agent和environment交互过程。 如果说一个状态包含关于过去agent-env交互的全部信息,并且这个交互会对未来造成一定的影响,那么称这个状态具有马 阅读全文