摘要:**发表时间:**2021(ICML 2021) **文章要点:**这篇文章提出了latent collocation method (LatCo)算法,用来planning状态序列,而不是动作序列,来解决long horizon的planning问题(it is easier to solve l
阅读全文
摘要:**发表时间:**2020 **文章要点:**这篇文章主要是deep的model based RL的综述,说起来主要的目标就是一句话achieve high predictive power while maintaining low sample complexity. 主要分了三大类using
阅读全文
摘要:**发表时间:**2021 **文章要点:**一篇综述,主要从dynamics model learning,planning-learning integration和implicit model-based RL三个方面介绍。dynamics model learning包括stochastic
阅读全文
摘要:**发表时间:**2021 **文章要点:**一篇比较短的概念性的文章,主要想说Data-efficient RL走过了三个阶段,一个是pure on-line RL,就是数据来了用一次就扔;第二个是RL with a replay buffer,数据来了会存到一个容量有限的buffer里,数据可以
阅读全文
摘要:**发表时间:**2018 **文章要点:**这篇文章提出了model-based value expansion (MVE)算法,通过在model上扩展有限深度,来控制model uncertainty,利用这有限步上的reward来估计value,提升value估计的准确性,在结合model f
阅读全文
摘要:**发表时间:**2019(NeurIPS 2019) **文章要点:**文章简单理论分析了一下model-based RL的单调收敛,然后做实验验证生成很多的短的rollouts会有比较好的效果(using short model-generated rollouts branched from
阅读全文
摘要:**发表时间:**2019 **文章要点:**这篇文章就和标题一样,做了很多个model based RL的benchmark。提供了11种 MBRL和4种MFRL算法以及18个环境。文章把MBRL算法分成三类: Dyna-style Algorithms Policy Search with Ba
阅读全文
摘要:**发表时间:**2021(ICLR 2021) **文章要点:**这篇文章想要分析model-based reinforcement learning (MBRL)里面各个部分的作用。文章以muzero为基础,回答了三个问题 (1) How does planning benefit MBRL a
阅读全文