随笔档案「2016年1月9日」：增强学习（五）----- 时间差分学习(Q learn... - Kintoki

2016年1月9日

增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)

摘要：接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点，对于动态规划算法有如下特性：需要环境模型，即状态转移概率$P_{sa}$ 状态值函数的估计是自举的(bootstrapping)，即当前状态值函数的更新依赖于已知的其他状态值函数。相对的，蒙特卡罗方法的特点则有：可以从经验中学阅读全文

posted @ 2016-01-09 14:22 Kintoki 阅读(52082) 评论(4) 推荐(14)

Loading

Kintoki

关注机器学习，数据挖掘，人工智能

公告