随笔档案「2021年7月20日」：Safe and efficient off-policy reinforcem... - initial_h

2021年7月20日

Safe and efficient off-policy reinforcement learning（Retrace）

摘要： **发表时间：**2016（NIPS 2016） **文章要点：**提出了一种新的在off-policy算法中修正behavior policy和target policy的方法：Retrace(λ)。最常见的修正当然是importance sampling，这个方式不仅用在value based方阅读全文

posted @ 2021-07-20 02:06 initial_h 阅读(287) 评论(0) 推荐(0)

initial_h

https://github.com/initial-h

公告