会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
_1024
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2017年8月15日
强化学习(David Silver)3:动态规划
摘要: 1、简介 1.1、动态规划 动态规划的性质:最优子结构;无后向性 动态规划假定MDP所有信息已知,解决的是planning问题,不是RL问题 1.2、两类问题 预测问题:给定策略,给出MDP/MRP和策略,计算策略值函数 控制问题:不给策略,给出MDP/MRP,得出最优策略值函数 2、策略评估 通过
阅读全文
posted @ 2017-08-15 23:16 _1024
阅读(463)
评论(0)
推荐(0)
编辑