2020 年 1月 13 日随笔档案 - LIN_KID

2020年1月13日

摘要： Q(λ) with Off Policy Corrections 摘要我们提出并分析了一种off policy的多步骤时间TD学习的替代方法，其中off policy的回报是根据当前的Q函数在奖励方面进行校正，而不是根据目标策略在转移概率方面进行校正。我们证明，只要有一定条件，这种近似修正就足以在阅读全文

posted @ 2020-01-13 19:06 LIN_KID 阅读(594) 评论(0) 推荐(0) 编辑

LIN_KID

公告