会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
芋圆院长
博客园
首页
新随笔
联系
订阅
管理
2021年5月25日
时序差分学习(temporary learning, TD)
摘要: 蒙特卡罗方法在没有环境模型的基础上,直接从经验中学习,无需获知环境的全部信息。动态规划从其它的已经学习到的估计值去更新估计值。TD则结合了这两种方法的优点,且不需要等到片段结束。 对于控制问题,也就是寻找一个最优策略,DP、TD和蒙特卡罗方法都是用一些GPI的变量。不同之处在于它们对于预测问题的求解
阅读全文
posted @ 2021-05-25 10:46 芋圆院长
阅读(182)
评论(0)
推荐(0)
编辑
公告