2019 年 2月 16 日随笔档案 - hyc339408769

2019年2月16日

摘要： 1. 前言上一篇博客我们介绍了 "价值迭代的原理" 。这一节我们实现强化学习里面的价值迭代的部分代码( "完整代码GitHub" )。 2. 价值迭代回顾我们把注意点放在值函数上，等值函数收敛了，我们的策略也会收敛到最优值。 $$ v^{T+1}(s) =max_{a} \sum_{s_{t+1 阅读全文

posted @ 2019-02-16 19:25 hyc339408769 阅读(1994) 评论(0) 推荐(0) 编辑

强化学习-价值迭代

摘要： 1. 前言在 "策略迭代" 最后我们发现策略迭代的收敛过程比较慢，那我们就会想有没更好更快的迭代方法，今天我们介绍的价值迭代就是另一种寻找最优策略的解决方案。 2. 动态规划价值迭代需要用到动态规划的思想，那我们简单的回顾下动态规划的特点。 1. 最优子结构：是指一个子问题的最优解是可以得到的阅读全文

posted @ 2019-02-16 09:12 hyc339408769 阅读(3549) 评论(0) 推荐(0) 编辑

人工智站

公告