会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Loading
Kintoki
关注机器学习,数据挖掘,人工智能
博客园
首页
新随笔
联系
订阅
管理
2014年1月20日
增强学习(三)----- MDP的动态规划解法
摘要: 上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。 那么如何求解最优策略呢?基本的解法有三种: 动态规划法(dynamic program
阅读全文
posted @ 2014-01-20 10:26 Kintoki
阅读(42216)
评论(10)
推荐(9)
编辑
公告