会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
LIN_KID
博客园
首页
新随笔
联系
订阅
管理
2020年1月13日
Q \pi (\lambda)
摘要: Q(λ) with Off Policy Corrections 摘要 我们提出并分析了一种off policy的多步骤时间TD学习的替代方法,其中off policy的回报是根据当前的Q函数在奖励方面进行校正,而不是根据目标策略在转移概率方面进行校正。我们证明,只要有一定条件,这种近似修正就足以在
阅读全文
posted @ 2020-01-13 19:06 LIN_KID
阅读(594)
评论(0)
推荐(0)
编辑
公告