Reinforcement Learning - 随笔分类(第5页) - initial_h

MBMF: Model-Based Priors for Model-Free Reinforcement Learning

摘要：**发表时间：**2017 **文章要点：**这篇文章提出了一个Model-Based Model-Free (MBMF)算法，通过学习一个dynamics model然后作为先验来做model free optimization，这里的model free optimization指的是基于Gau 阅读全文

posted @ 2022-03-13 10:16 initial_h 阅读(400) 评论(0) 推荐(0)

Model-Based Reinforcement Learning via Latent-Space Collocation

摘要：**发表时间：**2021（ICML 2021） **文章要点：**这篇文章提出了latent collocation method (LatCo)算法，用来planning状态序列，而不是动作序列，来解决long horizon的planning问题（it is easier to solve l 阅读全文

posted @ 2022-03-10 12:23 initial_h 阅读(123) 评论(0) 推荐(0)

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning

摘要：**发表时间：**2018（ICRA 2018） **文章要点：**这篇文章提出了一个叫model-based and model-free (Mb-Mf)的算法，先用model based的方法训一个policy，再用model free的方法来fine tune。具体的，先学一个model，然后阅读全文

posted @ 2022-03-10 12:17 initial_h 阅读(222) 评论(0) 推荐(0)

Model-Based Deep Reinforcement Learning for High-Dimensional Problems, a Survey

摘要：**发表时间：**2020 **文章要点：**这篇文章主要是deep的model based RL的综述，说起来主要的目标就是一句话achieve high predictive power while maintaining low sample complexity. 主要分了三大类using 阅读全文

posted @ 2022-02-26 13:10 initial_h 阅读(100) 评论(0) 推荐(0)

Model-based Reinforcement Learning: A Survey

摘要：**发表时间：**2021 **文章要点：**一篇综述，主要从dynamics model learning，planning-learning integration和implicit model-based RL三个方面介绍。dynamics model learning包括stochastic 阅读全文

posted @ 2022-02-19 12:09 initial_h 阅读(287) 评论(0) 推荐(0)

Collect & Infer - a fresh look at data-efficient Reinforcement Learning

摘要：**发表时间：**2021 **文章要点：**一篇比较短的概念性的文章，主要想说Data-efficient RL走过了三个阶段，一个是pure on-line RL，就是数据来了用一次就扔；第二个是RL with a replay buffer，数据来了会存到一个容量有限的buffer里，数据可以阅读全文

posted @ 2022-02-17 12:38 initial_h 阅读(106) 评论(0) 推荐(0)

Imagination-Augmented Agents for Deep Reinforcement Learning

摘要：**发表时间：**2017(NIPS 2017) **文章要点：**文章提出了一个叫Imagination-Augmented Agents (I2As)的算法，结合了model free和model based，主要的点不是planning，而是把在model里planning的轨迹encode到阅读全文

posted @ 2022-02-13 11:36 initial_h 阅读(152) 评论(0) 推荐(0)

MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION

摘要：**发表时间：**2018（ICLR 2018） **文章要点：**这篇文章用ensemble的方式来度量model uncertainty，然后用来调整训练，避免policy利用model训练不充分（model bias）的地方进行学习，从而影响训练效果（policy optimization t 阅读全文

posted @ 2022-02-12 13:24 initial_h 阅读(154) 评论(0) 推荐(0)

Model-Based Value Estimation for Efficient Model-Free Reinforcement Learning

摘要：**发表时间：**2018 **文章要点：**这篇文章提出了model-based value expansion (MVE)算法，通过在model上扩展有限深度，来控制model uncertainty，利用这有限步上的reward来估计value，提升value估计的准确性，在结合model f 阅读全文

posted @ 2022-02-11 13:53 initial_h 阅读(313) 评论(0) 推荐(0)

Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion

摘要：**发表时间：**2018 (NeurIPS 2018) **文章要点：**这篇文章在model-based value expansion (MVE)的基础上提出了一个stochastic ensemble value expansion (STEVE)的model based算法，主要用来自适应阅读全文

posted @ 2022-02-10 06:32 initial_h 阅读(136) 评论(0) 推荐(0)

ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES

摘要：**发表时间：**2019（ICLR 2019） **文章要点：**这篇文章主要从理论上分析了model based RL的lower bound，然后不断最大化这个lower bound，从而证明了理论上可以单调上升。这个框架还提出了一个optimism-in-face-of-uncertain 阅读全文

posted @ 2022-02-05 12:08 initial_h 阅读(157) 评论(0) 推荐(0)

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

摘要：**发表时间：**2018（NIPS 2018） **文章要点：**这篇文章提出了一个model based 方法probabilistic ensembles with trajectory sampling (PETS)，达到了model free方法的performance。主要思路是通过概率阅读全文

posted @ 2022-02-05 12:02 initial_h 阅读(412) 评论(0) 推荐(0)

When to Trust Your Model: Model-Based Policy Optimization

摘要：**发表时间：**2019（NeurIPS 2019） **文章要点：**文章简单理论分析了一下model-based RL的单调收敛，然后做实验验证生成很多的短的rollouts会有比较好的效果（using short model-generated rollouts branched from 阅读全文

posted @ 2022-01-07 08:42 initial_h 阅读(416) 评论(0) 推荐(0)

On the Expressivity of Neural Networks for Deep Reinforcement Learning

摘要：**发表时间：**2020（ICML 2020） **文章要点：**通常一个RL的问题，dynamics都比value function和policy function更复杂，这个时候去学model的话通常还不如直接去学value和policy。但是文中给出了反例，就是dynamics比value和阅读全文

posted @ 2022-01-01 12:21 initial_h 阅读(68) 评论(0) 推荐(0)

When to use parametric models in reinforcement learning?

摘要：**发表时间：**2019（NeurIPS 2019） **文章要点：**这篇文章研究了parametric models和experience replay的异同，探讨什么时候用什么方式能取得各自的优势。结论是用model去学value和policy的时候，plan backward要比plan 阅读全文

posted @ 2021-12-30 10:13 initial_h 阅读(129) 评论(0) 推荐(0)

Benchmarking Model-Based Reinforcement Learning

摘要：**发表时间：**2019 **文章要点：**这篇文章就和标题一样，做了很多个model based RL的benchmark。提供了11种 MBRL和4种MFRL算法以及18个环境。文章把MBRL算法分成三类： Dyna-style Algorithms Policy Search with Ba 阅读全文

posted @ 2021-12-23 11:27 initial_h 阅读(146) 评论(0) 推荐(0)

Value Prediction Network

摘要：**发表时间：**2017（NIPS 2017） **文章要点：**这篇文章提出了一个叫Value Prediction Network (VPN)的网络结构用来预测未来的value，而不是未来的观测，然后来做model based RL。虽然文章强调说plan without predicting 阅读全文

posted @ 2021-12-21 11:10 initial_h 阅读(127) 评论(0) 推荐(0)

The Effect of Planning Shape on Dyna-style Planning in High-dimensional State Spaces

摘要：**发表时间：**2019 **文章要点：**文章分析了Dyna这种model based方法，用model去生成one-step的transition和n-step的transition的区别，得出的主要结论是one-step的transition基本上没有任何帮助，还不如直接用现有的buffer 阅读全文

posted @ 2021-12-18 09:21 initial_h 阅读(97) 评论(0) 推荐(0)

ON THE ROLE OF PLANNING IN MODEL-BASED DEEP REINFORCEMENT LEARNING

摘要：**发表时间：**2021（ICLR 2021） **文章要点：**这篇文章想要分析model-based reinforcement learning (MBRL)里面各个部分的作用。文章以muzero为基础，回答了三个问题 (1) How does planning benefit MBRL a 阅读全文

posted @ 2021-12-16 11:46 initial_h 阅读(237) 评论(0) 推荐(0)

MODEL BASED REINFORCEMENT LEARNING FOR ATARI

摘要：**发表时间：**2020（ICLR 2020） **文章要点：**这篇文章提出了一个叫Simulated Policy Learning (SimPLe)的算法，用model based的方式来提高sample efficiency，在和环境交互100K次的限制下，比所有model free算法的阅读全文

posted @ 2021-12-03 11:48 initial_h 阅读(121) 评论(0) 推荐(0)

initial_h

https://github.com/initial-h

随笔分类 - Reinforcement Learning

公告