摘要: 发表时间:2021(ICML 2022) 文章要点:这篇文章把experience replay看做一个通过importance sampling来估计梯度的问题,从理论上推导经验回放的最优采样分布,然后提出LaBER (Large Batch Experience Replay)算法来近似这个采样 阅读全文
posted @ 2024-02-17 00:50 initial_h 阅读(22) 评论(0) 推荐(0) 编辑