摘要: 1. 前言 上一篇博客我们介绍了 "价值迭代的原理" 。这一节我们实现强化学习里面的价值迭代的部分代码( "完整代码GitHub" )。 2. 价值迭代回顾 我们把注意点放在值函数上,等值函数收敛了,我们的策略也会收敛到最优值。 $$ v^{T+1}(s) =max_{a} \sum_{s_{t+1 阅读全文
posted @ 2019-02-16 19:25 hyc339408769 阅读(1960) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 在 "策略迭代" 最后我们发现策略迭代的收敛过程比较慢,那我们就会想有没更好更快的迭代方法,今天我们介绍的价值迭代就是另一种寻找最优策略的解决方案。 2. 动态规划 价值迭代需要用到动态规划的思想,那我们简单的回顾下动态规划的特点。 1. 最优子结构 :是指一个子问题的最优解是可以得到的 阅读全文
posted @ 2019-02-16 09:12 hyc339408769 阅读(3470) 评论(0) 推荐(0) 编辑