随笔分类 -  Reinforcement Learning

reinforcement learning algorithm
摘要:**发表时间:**2017 **文章要点:**这篇文章提出了一个Model-Based Model-Free (MBMF)算法,通过学习一个dynamics model然后作为先验来做model free optimization,这里的model free optimization指的是基于Gau 阅读全文
posted @ 2022-03-13 10:16 initial_h 阅读(400) 评论(0) 推荐(0)
摘要:**发表时间:**2021(ICML 2021) **文章要点:**这篇文章提出了latent collocation method (LatCo)算法,用来planning状态序列,而不是动作序列,来解决long horizon的planning问题(it is easier to solve l 阅读全文
posted @ 2022-03-10 12:23 initial_h 阅读(123) 评论(0) 推荐(0)
摘要:**发表时间:**2018(ICRA 2018) **文章要点:**这篇文章提出了一个叫model-based and model-free (Mb-Mf)的算法,先用model based的方法训一个policy,再用model free的方法来fine tune。具体的,先学一个model,然后 阅读全文
posted @ 2022-03-10 12:17 initial_h 阅读(222) 评论(0) 推荐(0)
摘要:**发表时间:**2020 **文章要点:**这篇文章主要是deep的model based RL的综述,说起来主要的目标就是一句话achieve high predictive power while maintaining low sample complexity. 主要分了三大类using 阅读全文
posted @ 2022-02-26 13:10 initial_h 阅读(100) 评论(0) 推荐(0)
摘要:**发表时间:**2021 **文章要点:**一篇综述,主要从dynamics model learning,planning-learning integration和implicit model-based RL三个方面介绍。dynamics model learning包括stochastic 阅读全文
posted @ 2022-02-19 12:09 initial_h 阅读(287) 评论(0) 推荐(0)
摘要:**发表时间:**2021 **文章要点:**一篇比较短的概念性的文章,主要想说Data-efficient RL走过了三个阶段,一个是pure on-line RL,就是数据来了用一次就扔;第二个是RL with a replay buffer,数据来了会存到一个容量有限的buffer里,数据可以 阅读全文
posted @ 2022-02-17 12:38 initial_h 阅读(106) 评论(0) 推荐(0)
摘要:**发表时间:**2017(NIPS 2017) **文章要点:**文章提出了一个叫Imagination-Augmented Agents (I2As)的算法,结合了model free和model based,主要的点不是planning,而是把在model里planning的轨迹encode到 阅读全文
posted @ 2022-02-13 11:36 initial_h 阅读(152) 评论(0) 推荐(0)
摘要:**发表时间:**2018(ICLR 2018) **文章要点:**这篇文章用ensemble的方式来度量model uncertainty,然后用来调整训练,避免policy利用model训练不充分(model bias)的地方进行学习,从而影响训练效果(policy optimization t 阅读全文
posted @ 2022-02-12 13:24 initial_h 阅读(154) 评论(0) 推荐(0)
摘要:**发表时间:**2018 **文章要点:**这篇文章提出了model-based value expansion (MVE)算法,通过在model上扩展有限深度,来控制model uncertainty,利用这有限步上的reward来估计value,提升value估计的准确性,在结合model f 阅读全文
posted @ 2022-02-11 13:53 initial_h 阅读(313) 评论(0) 推荐(0)
摘要:**发表时间:**2018 (NeurIPS 2018) **文章要点:**这篇文章在model-based value expansion (MVE)的基础上提出了一个stochastic ensemble value expansion (STEVE)的model based算法,主要用来自适应 阅读全文
posted @ 2022-02-10 06:32 initial_h 阅读(136) 评论(0) 推荐(0)
摘要:**发表时间:**2019(ICLR 2019) **文章要点:**这篇文章主要从理论上分析了model based RL的lower bound,然后不断最大化这个lower bound,从而证明了理论上可以单调上升。 这个框架还提出了一个optimism-in-face-of-uncertain 阅读全文
posted @ 2022-02-05 12:08 initial_h 阅读(157) 评论(0) 推荐(0)
摘要:**发表时间:**2018(NIPS 2018) **文章要点:**这篇文章提出了一个model based 方法probabilistic ensembles with trajectory sampling (PETS),达到了model free方法的performance。主要思路是通过概率 阅读全文
posted @ 2022-02-05 12:02 initial_h 阅读(412) 评论(0) 推荐(0)
摘要:**发表时间:**2019(NeurIPS 2019) **文章要点:**文章简单理论分析了一下model-based RL的单调收敛,然后做实验验证生成很多的短的rollouts会有比较好的效果(using short model-generated rollouts branched from 阅读全文
posted @ 2022-01-07 08:42 initial_h 阅读(416) 评论(0) 推荐(0)
摘要:**发表时间:**2020(ICML 2020) **文章要点:**通常一个RL的问题,dynamics都比value function和policy function更复杂,这个时候去学model的话通常还不如直接去学value和policy。但是文中给出了反例,就是dynamics比value和 阅读全文
posted @ 2022-01-01 12:21 initial_h 阅读(68) 评论(0) 推荐(0)
摘要:**发表时间:**2019(NeurIPS 2019) **文章要点:**这篇文章研究了parametric models和experience replay的异同,探讨什么时候用什么方式能取得各自的优势。结论是用model去学value和policy的时候,plan backward要比plan 阅读全文
posted @ 2021-12-30 10:13 initial_h 阅读(129) 评论(0) 推荐(0)
摘要:**发表时间:**2019 **文章要点:**这篇文章就和标题一样,做了很多个model based RL的benchmark。提供了11种 MBRL和4种MFRL算法以及18个环境。文章把MBRL算法分成三类: Dyna-style Algorithms Policy Search with Ba 阅读全文
posted @ 2021-12-23 11:27 initial_h 阅读(146) 评论(0) 推荐(0)
摘要:**发表时间:**2017(NIPS 2017) **文章要点:**这篇文章提出了一个叫Value Prediction Network (VPN)的网络结构用来预测未来的value,而不是未来的观测,然后来做model based RL。虽然文章强调说plan without predicting 阅读全文
posted @ 2021-12-21 11:10 initial_h 阅读(127) 评论(0) 推荐(0)
摘要:**发表时间:**2019 **文章要点:**文章分析了Dyna这种model based方法,用model去生成one-step的transition和n-step的transition的区别,得出的主要结论是one-step的transition基本上没有任何帮助,还不如直接用现有的buffer 阅读全文
posted @ 2021-12-18 09:21 initial_h 阅读(97) 评论(0) 推荐(0)
摘要:**发表时间:**2021(ICLR 2021) **文章要点:**这篇文章想要分析model-based reinforcement learning (MBRL)里面各个部分的作用。文章以muzero为基础,回答了三个问题 (1) How does planning benefit MBRL a 阅读全文
posted @ 2021-12-16 11:46 initial_h 阅读(237) 评论(0) 推荐(0)
摘要:**发表时间:**2020(ICLR 2020) **文章要点:**这篇文章提出了一个叫Simulated Policy Learning (SimPLe)的算法,用model based的方式来提高sample efficiency,在和环境交互100K次的限制下,比所有model free算法的 阅读全文
posted @ 2021-12-03 11:48 initial_h 阅读(121) 评论(0) 推荐(0)