摘要: 参考:https://orzyt.cn/posts/gridworld/ Reinforcement Learning: An Introduction》在第三章中给出了一个简单的例子:Gridworld, 以帮助我们理解finite MDPs, 同时也求解了该问题的贝尔曼期望方程和贝尔曼最优方程. 阅读全文
posted @ 2020-08-02 20:34 feifanren 阅读(1647) 评论(0) 推荐(0) 编辑