上一页 1 2 3 4 5 6 7 ··· 12 下一页
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202305/1428973-20230527210049171-1465770587.png) **发表时间:**2022(ICLR 2022) **文章要点:**AlphaZero在搜索次数很少的时候甚至动 阅读全文
posted @ 2023-05-27 21:11 initial_h 阅读(131) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202305/1428973-20230524224808789-13684847.png) **发表时间:**2021(NeurIPS 2021) **文章要点:**这篇文章提出一个tandem learni 阅读全文
posted @ 2023-05-24 22:58 initial_h 阅读(17) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(ICML 2019) **文章要点:**这篇文章想说在offline RL的setting下,由于外推误差(extrapolation errors)的原因,标准的off-policy算法比如DQN,DDPG之类的,如果数据的分布和当前policy的分布差距很大的话,那就 阅读全文
posted @ 2023-05-21 12:10 initial_h 阅读(131) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2017(Deep Reinforcement Learning Symposium, NIPS 2017) **文章要点:**这篇文章主要研究了replay buffer大小对Q-learning的影响,得出的结论是大的buffer会损害performance,因为采样的样本会更 阅读全文
posted @ 2023-05-18 11:53 initial_h 阅读(65) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020 (NeurIPS 2020) **文章要点:**这篇文章想说,对于监督学习来说就算刚开始训的不准,后面的新数据也会给你正确的feedback,这样的话随着训练进行,总会修正之前的错误。但是对于像Q-learning这样的强化学习任务来说,不存在这样的feedback,因为 阅读全文
posted @ 2023-05-13 22:44 initial_h 阅读(54) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(ICLR2020) **文章要点:**这篇文章提出了一个无监督的model-based的学习算法Dynamics-Aware Discovery of Skills (DADS),可以同时发现可预测的行为以及学习他们的dynamics。然后对于新任务,可以直接用zero- 阅读全文
posted @ 2023-05-09 22:41 initial_h 阅读(58) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021 (NeurIPS 2021) **文章要点:**这篇文章提出了一个Heuristic-Guided Reinforcement Learning (HuRL)的框架,用domain knowledge或者offline data构建heuristic,将问题变成一个sho 阅读全文
posted @ 2023-05-06 23:30 initial_h 阅读(85) 评论(0) 推荐(1) 编辑
摘要: **发表时间:**2021 (NeurIPS 2021) **文章要点:**这篇文章提出了一种学习policy的监督范式,大概思路就是先结构化advice,然后先学习解释advice,再从advice中学policy。这个advice来自于外部的teacher,相当于一种human-in-the-l 阅读全文
posted @ 2023-05-02 23:41 initial_h 阅读(24) 评论(0) 推荐(1) 编辑
摘要: **发表时间:**2019 (CoRL 2019) **文章要点:**文章提出了一个online planning with deep dynamics models (PDDM)的算法来学习Dexterous multi-fingered hands,大概意思就是学习拟人的灵活的手指操控技巧。大概 阅读全文
posted @ 2023-04-30 13:34 initial_h 阅读(54) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章说现在的planning方法都是在动作空间里randomly generated,这样很不高效(其实瞎扯了,很多不是随机的方法啊)。作者提出在model based RL里用policy网络来做online planning 阅读全文
posted @ 2023-04-27 23:02 initial_h 阅读(44) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021(CoRL 2021) **文章要点:**这篇文章提出Off-Policy with Online Planning (LOOP)算法,将H-step lookahead with a learned model和terminal value function learne 阅读全文
posted @ 2023-04-23 12:56 initial_h 阅读(34) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020 **文章要点:**MCTS里通常通过计算访问次数来做探索,这个被称作count-derived uncertainty。这篇文章提出了第二种uncertainty,这种uncertainty来源于子树的大小,一个直觉的想法就是,如果一个动作对应下的子树小,那就不用探索那么 阅读全文
posted @ 2023-04-20 23:14 initial_h 阅读(30) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021 **文章要点:**这篇文章给AlphaZero设计了一个新的value targets,AlphaZero with greedy backups (A0GB)。 AlphaZero的树里面有探索,而value又是所有结果的平均,所以并不准确。而选动作也是依概率选的,但真 阅读全文
posted @ 2023-04-16 10:23 initial_h 阅读(29) 评论(0) 推荐(1) 编辑
摘要: **发表时间:**2021 **文章要点:**这篇文章主要想看看muzero里面的model具体学到了什么表征。通过PCA降维的方式,发现最开始编码状态的h函数学到的embedding和动态转移函数g学到的embedding并不统一,存在很大差异。因为muzero里面没有相关的loss来控制他俩一样 阅读全文
posted @ 2023-04-12 22:29 initial_h 阅读(37) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021(ICML 2021) **文章要点:**这篇文章提出了demonstration-conditioned reinforcement learning (DCRL)来做Few-Shot Imitation,将demonstration和当前状态作为输入,通过强化学习最大化 阅读全文
posted @ 2023-04-10 07:35 initial_h 阅读(45) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 12 下一页