上一页 1 ··· 5 6 7 8 9 10 11 12 下一页
摘要: **发表时间:**2021(ICML 2021) **文章要点:**这篇文章提出了一个叫REPresentation And INstance Transfer (REPAINT)的算法来做RL里的知识迁移。主要方法就是representation transfer和instance transfe 阅读全文
posted @ 2021-10-30 14:40 initial_h 阅读(163) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(NeurIPS 2020) **文章要点:**这篇文章提出了一个叫mixreg的方法来提高agent泛化性。大致方法就是说用多个环境训练,并且对环境做插值,这样学到的策略就会更平滑,泛化性就更好。具体的,我有两个状态,通过加权插值的方式得到一个新的状态 这里权重λ通过从贝 阅读全文
posted @ 2021-10-28 10:19 initial_h 阅读(128) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章提出了一个新的intrinsic reward机制,Rewarding Impact-Driven Exploration (RIDE),鼓励agent采取使得状态表征变化大的动作,相较于之前的方法,这个方式在procedu 阅读全文
posted @ 2021-10-26 12:28 initial_h 阅读(171) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(AAAI 2020) **文章要点:**这篇文章通过构建一个图结构,来解释为啥agent要做/不做某个动作。具体来说就是先把某个问题给抽象成一个图结构,定义状态动作回报等关键信息的节点和边,然后在训练RL的时候也顺便用数据来训练这个图。训练完了之后,就根据图用深度优先搜索 阅读全文
posted @ 2021-10-26 12:23 initial_h 阅读(129) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(ICML 2020) **文章要点:**这篇文章想说model based方法在data efficiency和planning方面都具有天然优势,但是model的泛化性通常是个问题。这篇文章提出学一个context相关的latent vector,然后用model去pr 阅读全文
posted @ 2021-10-22 13:22 initial_h 阅读(135) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(NeurIPS 2020) **文章要点:**目前主流的offline RL的方法都是model free的,这类方法通常需要将policy限制到data覆盖的集合范围里(support),不能泛化到没见过的状态上。作者提出Model-based Offline Poli 阅读全文
posted @ 2021-10-21 10:42 initial_h 阅读(948) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2018(ICML2018) **文章要点:**这篇文章用saliency map的方式来做RL agent的可视化,目的就是想分析一下agent做某个动作的时候到底关注的是输入的哪个部分,这样可以对RL的agent有一定的可解释性。比如下图这个效果 其中蓝色是policy关注的点 阅读全文
posted @ 2021-10-17 12:34 initial_h 阅读(139) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2016(AAAI2016) **文章要点:**通常大家做offline评估的时候都是去评估一个训好的fixed的策略,这篇文章就说我想在offline的setting 下去评估一个算法好不好。根据这个出发点,大致思路是先根据收集的data去弄一个evaluator出来,然后RL算 阅读全文
posted @ 2021-10-17 12:28 initial_h 阅读(73) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021(ICML2021) **文章要点:**这篇文章想说,通常在训练PG这类算法特别是图像作为输入的任务的时候,主流的做法是policy和value用一个网络表征,没有分开。这会导致policy overfitting,因为学value比学policy需要更多的信息,如果用一个 阅读全文
posted @ 2021-10-11 11:36 initial_h 阅读(194) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021 **文章要点:**这篇文章主要想说,设计了一个进化强化的框架Deep Evolutionary Reinforcement Learning (DERL)来模拟人类进化的方式,然后得出结论:复杂的环境会产生能力更强的morphology(形态学,这个词有点玄学了,其实就是 阅读全文
posted @ 2021-10-08 13:40 initial_h 阅读(421) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2018(NeurIPS 2018) **文章要点:**这篇文章提出了一个对分类任务检测异常点的方法。文章首先说异常点可以有两类,一类是OOD(out-of-distribution),一类是对抗样本(adversarial samples)。很多方式只能检测一种,不能两种一起。作 阅读全文
posted @ 2021-10-07 12:47 initial_h 阅读(889) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(ICLR 2019) **文章要点:**这篇文章提到了RL里面overfitting的问题,提出了一个Observational Overfitting的问题,然后用修正观测空间的方式来检测observational overfitting,并得出结论像MLP,CNN这些 阅读全文
posted @ 2021-10-06 13:26 initial_h 阅读(77) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(NeurIPS 2019) **文章要点:**这篇文章的出发点是说,大家都在数据集上刷点,虽然都分了训练集和测试集,但是刷到最后的结果肯定是在测试集上效果越来越好了,但是会不会出现在测试集上overfitting的问题?文章通过从测试集生成对抗样本并用importance 阅读全文
posted @ 2021-10-05 10:32 initial_h 阅读(56) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2018 **文章要点:**这篇文章搞了一个maze的环境来研究RL里面的overfitting问题。把环境也分成train和test,然后来看效果。Train和test就根据初始状态来分的,其实就是agent在迷宫里面的起始位置。先是比较了训练时间,训练集的大小,任务难度这三个因 阅读全文
posted @ 2021-10-04 13:01 initial_h 阅读(97) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021(ICML 2021) **文章要点:**文章想说,我们训好一个policy之后,在真正用他的时候需要考虑安全性和可靠性(RL tasks is the safety and reliability of the system)。所以我们就需要一个方法来快速检测这个trai 阅读全文
posted @ 2021-10-02 12:02 initial_h 阅读(94) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 下一页