上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页
摘要: **发表时间:**2018 **文章要点:**这篇文章提出了model-based value expansion (MVE)算法,通过在model上扩展有限深度,来控制model uncertainty,利用这有限步上的reward来估计value,提升value估计的准确性,在结合model f 阅读全文
posted @ 2022-02-11 13:53 initial_h 阅读(211) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2018 (NeurIPS 2018) **文章要点:**这篇文章在model-based value expansion (MVE)的基础上提出了一个stochastic ensemble value expansion (STEVE)的model based算法,主要用来自适应 阅读全文
posted @ 2022-02-10 06:32 initial_h 阅读(90) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(ICLR 2019) **文章要点:**这篇文章主要从理论上分析了model based RL的lower bound,然后不断最大化这个lower bound,从而证明了理论上可以单调上升。 这个框架还提出了一个optimism-in-face-of-uncertain 阅读全文
posted @ 2022-02-05 12:08 initial_h 阅读(123) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2018(NIPS 2018) **文章要点:**这篇文章提出了一个model based 方法probabilistic ensembles with trajectory sampling (PETS),达到了model free方法的performance。主要思路是通过概率 阅读全文
posted @ 2022-02-05 12:02 initial_h 阅读(317) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(NeurIPS 2019) **文章要点:**文章简单理论分析了一下model-based RL的单调收敛,然后做实验验证生成很多的短的rollouts会有比较好的效果(using short model-generated rollouts branched from 阅读全文
posted @ 2022-01-07 08:42 initial_h 阅读(303) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(ICML 2020) **文章要点:**通常一个RL的问题,dynamics都比value function和policy function更复杂,这个时候去学model的话通常还不如直接去学value和policy。但是文中给出了反例,就是dynamics比value和 阅读全文
posted @ 2022-01-01 12:21 initial_h 阅读(42) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(NeurIPS 2019) **文章要点:**这篇文章研究了parametric models和experience replay的异同,探讨什么时候用什么方式能取得各自的优势。结论是用model去学value和policy的时候,plan backward要比plan 阅读全文
posted @ 2021-12-30 10:13 initial_h 阅读(97) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019 **文章要点:**这篇文章就和标题一样,做了很多个model based RL的benchmark。提供了11种 MBRL和4种MFRL算法以及18个环境。文章把MBRL算法分成三类: Dyna-style Algorithms Policy Search with Ba 阅读全文
posted @ 2021-12-23 11:27 initial_h 阅读(107) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2017(NIPS 2017) **文章要点:**这篇文章提出了一个叫Value Prediction Network (VPN)的网络结构用来预测未来的value,而不是未来的观测,然后来做model based RL。虽然文章强调说plan without predicting 阅读全文
posted @ 2021-12-21 11:10 initial_h 阅读(90) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019 **文章要点:**文章分析了Dyna这种model based方法,用model去生成one-step的transition和n-step的transition的区别,得出的主要结论是one-step的transition基本上没有任何帮助,还不如直接用现有的buffer 阅读全文
posted @ 2021-12-18 09:21 initial_h 阅读(65) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021(ICLR 2021) **文章要点:**这篇文章想要分析model-based reinforcement learning (MBRL)里面各个部分的作用。文章以muzero为基础,回答了三个问题 (1) How does planning benefit MBRL a 阅读全文
posted @ 2021-12-16 11:46 initial_h 阅读(135) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章提出了一个叫Simulated Policy Learning (SimPLe)的算法,用model based的方式来提高sample efficiency,在和环境交互100K次的限制下,比所有model free算法的 阅读全文
posted @ 2021-12-03 11:48 initial_h 阅读(87) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021(ICLR 2021) **文章要点:**这篇文章是《DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION》的后续,前面那篇文章做出来的效果在连续控制上挺好的,但是Atari上不行。这篇就接着做Atari,做到 阅读全文
posted @ 2021-11-30 11:56 initial_h 阅读(184) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(ICLR 2020) **文章要点:**文章提出一个叫Dreamer的算法,就是去学一个world model,然后强化学习在compact state space上进行。就相当于所有的学习过程都不是和真正的环境交互学习,而是在world model上进行,所以把这个东西 阅读全文
posted @ 2021-11-28 12:55 initial_h 阅读(356) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(ICML 2019) **文章要点:**文章提出了一个叫Deep Planning Network (PlaNet)的模型来学习环境的dynamics,然后用online planning的方式在这个模型构建的latent space上进行planning得到action 阅读全文
posted @ 2021-11-28 12:49 initial_h 阅读(322) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页