上一页 1 2 3 4 5 6 ··· 12 下一页
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230731085957589-2046683860.png) **发表时间:**2019 (IJCAI 2019) **文章要点:**这篇文章提出experience rep 阅读全文
posted @ 2023-07-31 09:05 initial_h 阅读(20) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230729080850680-1663030080.png) **发表时间:**2016(IROS 2016) **文章要点:**这篇文章提出了experience repl 阅读全文
posted @ 2023-07-29 08:25 initial_h 阅读(10) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230727110633815-1407402877.png) **发表时间:**2015(Deep Reinforcement Learning Workshop, NIPS 阅读全文
posted @ 2023-07-27 11:12 initial_h 阅读(16) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230725234343269-1373726308.png) **发表时间:**2018(AAAI 2018) **文章要点:**这篇文章想解决强化学习在学多个任务时候的遗忘 阅读全文
posted @ 2023-07-25 23:47 initial_h 阅读(55) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230717102339025-699657308.png) **发表时间:**2021 **文章要点:**这篇文章主要是设计了一个用来做experience replay的框 阅读全文
posted @ 2023-07-17 10:24 initial_h 阅读(15) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230713232535617-402383287.png) **发表时间:**2022(ICLR 2022) **文章要点:**这篇文章指出根据TD error来采样是低效的 阅读全文
posted @ 2023-07-13 23:30 initial_h 阅读(25) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021 (NeurIPS 2021) **文章要点:**理论表明,更高的hindsight TD error,更加on policy,以及更准的target Q value的样本应该有更高的采样权重(The theory suggests that data with highe 阅读全文
posted @ 2023-07-10 12:53 initial_h 阅读(82) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230707084258489-1960518081.png) **发表时间:**2020 (NeurIPS 2020) **文章要点:**这篇文章提出了Diversity v 阅读全文
posted @ 2023-07-07 08:46 initial_h 阅读(26) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230703112126926-921811970.png) **发表时间:**2022(ICLR 2022) **文章要点:**这篇文章想说Q网络通常会存在under- or 阅读全文
posted @ 2023-07-03 11:25 initial_h 阅读(34) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(ICML 2019) **文章要点:**这篇文章想说如果replay的经验和当前的policy差别很大的话,对更新是有害的。然后提出了Remember and Forget Experience Replay (ReF-ER)算法,(1)跳过那些和当前policy差别很大 阅读全文
posted @ 2023-07-02 12:15 initial_h 阅读(25) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202306/1428973-20230625114456465-1558069206.png) **发表时间:**2021(ICLR 2021) **文章要点:**这篇文章想说,之前的experience r 阅读全文
posted @ 2023-06-25 11:57 initial_h 阅读(17) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202306/1428973-20230623122845476-1483728572.png) **发表时间:**2020 **文章要点:**这篇文章提出了Prioritized Sequence Exper 阅读全文
posted @ 2023-06-23 12:34 initial_h 阅读(37) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202306/1428973-20230609121441155-1445259850.png) **发表时间:**2020(ICML2020) **文章要点:**这篇文章研究了experience repla 阅读全文
posted @ 2023-06-09 12:22 initial_h 阅读(21) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202306/1428973-20230604130820622-309698896.png) **发表时间:**2021 **文章要点:**这篇文章想说Prioritized experience repla 阅读全文
posted @ 2023-06-04 13:12 initial_h 阅读(19) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202306/1428973-20230602222440022-2137032229.png) **发表时间:**2021(ICML 2021) **文章要点:**这篇文章提出一个更新policy的方式,结合 阅读全文
posted @ 2023-06-02 22:36 initial_h 阅读(19) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 12 下一页