摘要: Q(λ) with Off Policy Corrections 摘要 我们提出并分析了一种off policy的多步骤时间TD学习的替代方法,其中off policy的回报是根据当前的Q函数在奖励方面进行校正,而不是根据目标策略在转移概率方面进行校正。我们证明,只要有一定条件,这种近似修正就足以在 阅读全文
posted @ 2020-01-13 19:06 LIN_KID 阅读(594) 评论(0) 推荐(0) 编辑