MASTERING ATARI WITH DISCRETE WORLD MODELS

发表时间：2021（ICLR 2021）
文章要点：这篇文章是《DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION》的后续，前面那篇文章做出来的效果在连续控制上挺好的，但是Atari上不行。这篇就接着做Atari，做到比model free方法好。所以这个东西作者叫他DreamerV2。相较于Dreamer,主要改动就是训练离散表征，以及一个KL loss（using discrete latents and balancing terms within the KL loss.）。
具体的就是把之前的高斯潜变量变成分类潜变量,以及有一项KL balancing的loss

有了model之后就在latent space上训练actor critic

Critic用了一个\(\lambda\)-target来平衡n-step return的权重。

作者还总结了一下各个部分的对效果的影响

看得出来Discrete Latents和KL Balancing影响都很大，Policy Reinforce更新方式也很重要，Image Gradients就是说在学world model的时候不用gradients from image reconstruction，只用gradients from reward prediction，这个对model的学习影响很大，进而对最后的效果影响也很大。
总结：算是model based的方法里面取得了不错的效果，但是文章里也提到了muzero的效果比这好。然后作者想说这个训练时间更短，但是这训练了10天，还是太久了。

疑问：这个KL balancing没看懂啥原理，另外，之前的paper里也有这一项啊，区别很大吗？

posted @ 2021-11-30 11:56 initial_h 阅读(184) 评论(0) 编辑收藏举报

initial_h

https://github.com/initial-h

MASTERING ATARI WITH DISCRETE WORLD MODELS

公告