2018年10月29日

2. 动态规划

摘要: 在马尔科夫模型(MDP)完全已知的情况下,我们可以用动态规划来求解最优策略,求出在给定状态$s$下,应该选择哪一个 下个状态$s'$,这样使得累积奖励最大。 因为需要求解的是累积奖励,所以单纯的贪婪即时奖励最大的策略是不可行的。 所以我们引入了能够包含未来奖励的v值(和q值),在与环境的交互过程中, 阅读全文

posted @ 2018-10-29 15:20 yijun0730 阅读(212) 评论(0) 推荐(0) 编辑

导航