会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
JinyuBlog
博客园
首页
新随笔
联系
订阅
管理
2019年4月15日
简析Monte Carlo与TD算法的相关问题
摘要: Monte Carlo算法是否能够做到一步更新,即在线学习? 答案显然是不能,如果可以的话,TD算法还有何存在的意义?MC算法必须要等到episode结束后才可以进行值估计的主要原因在于对Return(或是估计目标)的定义与TD算法不同。强化学习中所估计的状态动作对价值实质上就是在某一策略下,以这个
阅读全文
posted @ 2019-04-15 14:37 JinyuBlog
阅读(360)
评论(0)
推荐(0)
编辑
公告