会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
刘建平Pinard
十五年码农,对数学统计学,数据挖掘,机器学习,大数据平台,大数据平台应用开发,大数据可视化感兴趣。
博客园
首页
新随笔
联系
订阅
管理
2018年8月12日
强化学习(三)用动态规划(DP)求解
摘要: 在强化学习(二)马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。 动态规划这一篇对应Sutton书的第四章和UCL强化学习课程的第三讲
阅读全文
posted @ 2018-08-12 20:36 刘建平Pinard
阅读(72305)
评论(103)
推荐(22)
编辑
公告