摘要: **发表时间:**2019(ICML 2020) **文章要点:**这篇文章主要想把actor-critic方法里面加个replay buffer来提高采样效率。先是分析了把actor-critic变成off-policy的过程中需要做的修正,主要是importance sampling和V-tra 阅读全文
posted @ 2021-07-21 13:58 initial_h 阅读(132) 评论(0) 推荐(0) 编辑