摘要: **发表时间:**2020(ICLR 2020) **文章要点:**文章提出一个叫Dreamer的算法,就是去学一个world model,然后强化学习在compact state space上进行。就相当于所有的学习过程都不是和真正的环境交互学习,而是在world model上进行,所以把这个东西 阅读全文
posted @ 2021-11-28 12:55 initial_h 阅读(356) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(ICML 2019) **文章要点:**文章提出了一个叫Deep Planning Network (PlaNet)的模型来学习环境的dynamics,然后用online planning的方式在这个模型构建的latent space上进行planning得到action 阅读全文
posted @ 2021-11-28 12:49 initial_h 阅读(324) 评论(0) 推荐(0) 编辑