会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Loading
Kintoki
关注机器学习,数据挖掘,人工智能
博客园
首页
新随笔
联系
订阅
管理
2016年1月9日
增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)
摘要: 接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率$P_{sa}$ 状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其他状态值函数。 相对的,蒙特卡罗方法的特点则有: 可以从经验中学
阅读全文
posted @ 2016-01-09 14:22 Kintoki
阅读(51510)
评论(4)
推荐(14)
编辑
公告