摘要: **发表时间:**2016(NIPS 2016) **文章要点:**提出了一种新的在off-policy算法中修正behavior policy和target policy的方法:Retrace(λ)。最常见的修正当然是importance sampling,这个方式不仅用在value based方 阅读全文
posted @ 2021-07-20 02:06 initial_h 阅读(216) 评论(0) 推荐(0) 编辑