initial_h

2022年2月11日

Model-Based Value Estimation for Efficient Model-Free Reinforcement Learning

摘要： **发表时间：**2018 **文章要点：**这篇文章提出了model-based value expansion (MVE)算法，通过在model上扩展有限深度，来控制model uncertainty，利用这有限步上的reward来估计value，提升value估计的准确性，在结合model f 阅读全文

posted @ 2022-02-11 13:53 initial_h 阅读(211) 评论(0) 推荐(0) 编辑

2022年2月10日

Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion

摘要： **发表时间：**2018 (NeurIPS 2018) **文章要点：**这篇文章在model-based value expansion (MVE)的基础上提出了一个stochastic ensemble value expansion (STEVE)的model based算法，主要用来自适应阅读全文

posted @ 2022-02-10 06:32 initial_h 阅读(90) 评论(0) 推荐(0) 编辑

2022年2月5日

ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES

摘要： **发表时间：**2019（ICLR 2019） **文章要点：**这篇文章主要从理论上分析了model based RL的lower bound，然后不断最大化这个lower bound，从而证明了理论上可以单调上升。这个框架还提出了一个optimism-in-face-of-uncertain 阅读全文

posted @ 2022-02-05 12:08 initial_h 阅读(123) 评论(0) 推荐(0) 编辑

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

摘要： **发表时间：**2018（NIPS 2018） **文章要点：**这篇文章提出了一个model based 方法probabilistic ensembles with trajectory sampling (PETS)，达到了model free方法的performance。主要思路是通过概率阅读全文

posted @ 2022-02-05 12:02 initial_h 阅读(317) 评论(0) 推荐(0) 编辑

2022年1月7日

When to Trust Your Model: Model-Based Policy Optimization

摘要： **发表时间：**2019（NeurIPS 2019） **文章要点：**文章简单理论分析了一下model-based RL的单调收敛，然后做实验验证生成很多的短的rollouts会有比较好的效果（using short model-generated rollouts branched from 阅读全文

posted @ 2022-01-07 08:42 initial_h 阅读(303) 评论(0) 推荐(0) 编辑

2022年1月1日

On the Expressivity of Neural Networks for Deep Reinforcement Learning

摘要： **发表时间：**2020（ICML 2020） **文章要点：**通常一个RL的问题，dynamics都比value function和policy function更复杂，这个时候去学model的话通常还不如直接去学value和policy。但是文中给出了反例，就是dynamics比value和阅读全文

posted @ 2022-01-01 12:21 initial_h 阅读(42) 评论(0) 推荐(0) 编辑

2021年12月30日

When to use parametric models in reinforcement learning?

摘要： **发表时间：**2019（NeurIPS 2019） **文章要点：**这篇文章研究了parametric models和experience replay的异同，探讨什么时候用什么方式能取得各自的优势。结论是用model去学value和policy的时候，plan backward要比plan 阅读全文

posted @ 2021-12-30 10:13 initial_h 阅读(97) 评论(0) 推荐(0) 编辑

2021年12月23日

Benchmarking Model-Based Reinforcement Learning

摘要： **发表时间：**2019 **文章要点：**这篇文章就和标题一样，做了很多个model based RL的benchmark。提供了11种 MBRL和4种MFRL算法以及18个环境。文章把MBRL算法分成三类： Dyna-style Algorithms Policy Search with Ba 阅读全文

posted @ 2021-12-23 11:27 initial_h 阅读(107) 评论(0) 推荐(0) 编辑

2021年12月21日

Value Prediction Network

摘要： **发表时间：**2017（NIPS 2017） **文章要点：**这篇文章提出了一个叫Value Prediction Network (VPN)的网络结构用来预测未来的value，而不是未来的观测，然后来做model based RL。虽然文章强调说plan without predicting 阅读全文

posted @ 2021-12-21 11:10 initial_h 阅读(90) 评论(0) 推荐(0) 编辑

2021年12月18日

The Effect of Planning Shape on Dyna-style Planning in High-dimensional State Spaces

摘要： **发表时间：**2019 **文章要点：**文章分析了Dyna这种model based方法，用model去生成one-step的transition和n-step的transition的区别，得出的主要结论是one-step的transition基本上没有任何帮助，还不如直接用现有的buffer 阅读全文

posted @ 2021-12-18 09:21 initial_h 阅读(65) 评论(0) 推荐(0) 编辑

2021年12月16日

ON THE ROLE OF PLANNING IN MODEL-BASED DEEP REINFORCEMENT LEARNING

摘要： **发表时间：**2021（ICLR 2021） **文章要点：**这篇文章想要分析model-based reinforcement learning (MBRL)里面各个部分的作用。文章以muzero为基础，回答了三个问题 (1) How does planning benefit MBRL a 阅读全文

posted @ 2021-12-16 11:46 initial_h 阅读(135) 评论(0) 推荐(0) 编辑

2021年12月3日

MODEL BASED REINFORCEMENT LEARNING FOR ATARI

摘要： **发表时间：**2020（ICLR 2020） **文章要点：**这篇文章提出了一个叫Simulated Policy Learning (SimPLe)的算法，用model based的方式来提高sample efficiency，在和环境交互100K次的限制下，比所有model free算法的阅读全文

posted @ 2021-12-03 11:48 initial_h 阅读(87) 评论(0) 推荐(0) 编辑

2021年11月30日

MASTERING ATARI WITH DISCRETE WORLD MODELS

摘要： **发表时间：**2021（ICLR 2021） **文章要点：**这篇文章是《DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION》的后续，前面那篇文章做出来的效果在连续控制上挺好的，但是Atari上不行。这篇就接着做Atari，做到阅读全文

posted @ 2021-11-30 11:56 initial_h 阅读(184) 评论(0) 推荐(0) 编辑

2021年11月28日

DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION

摘要： **发表时间：**2020（ICLR 2020） **文章要点：**文章提出一个叫Dreamer的算法，就是去学一个world model，然后强化学习在compact state space上进行。就相当于所有的学习过程都不是和真正的环境交互学习，而是在world model上进行，所以把这个东西阅读全文

posted @ 2021-11-28 12:55 initial_h 阅读(356) 评论(0) 推荐(0) 编辑

Learning Latent Dynamics for Planning from Pixels

摘要： **发表时间：**2019（ICML 2019） **文章要点：**文章提出了一个叫Deep Planning Network (PlaNet)的模型来学习环境的dynamics，然后用online planning的方式在这个模型构建的latent space上进行planning得到action 阅读全文

posted @ 2021-11-28 12:49 initial_h 阅读(322) 评论(0) 推荐(0) 编辑

https://github.com/initial-h

公告