2018 年 8月 12 日随笔档案 - 刘建平Pinard

2018年8月12日

摘要：在强化学习（二）马尔科夫决策过程(MDP)中，我们讨论了用马尔科夫假设来简化强化学习模型的复杂度，这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。动态规划这一篇对应Sutton书的第四章和UCL强化学习课程的第三讲阅读全文

posted @ 2018-08-12 20:36 刘建平Pinard 阅读(72305) 评论(103) 推荐(22) 编辑

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

公告