2018 年 10月 29 日随笔档案 - yijun0730

2018年10月29日

2. 动态规划

摘要：在马尔科夫模型（MDP）完全已知的情况下，我们可以用动态规划来求解最优策略，求出在给定状态$s$下，应该选择哪一个下个状态$s'$，这样使得累积奖励最大。因为需要求解的是累积奖励，所以单纯的贪婪即时奖励最大的策略是不可行的。所以我们引入了能够包含未来奖励的v值（和q值），在与环境的交互过程中，阅读全文

posted @ 2018-10-29 15:20 yijun0730 阅读(212) 评论(0) 推荐(0) 编辑

yijun0730

2. 动态规划

导航