Agent57: Outperforming the Atari Human Benchmark


发表时间:2020(ICML)
文章要点:这篇文章提出Agent57算法,是第一个在所有57个Atari游戏上超过人类表现的算法。主要的思路就是基于Never Give Up (NGU)和R2D2((RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING))算法,用分布式框架训练一组策略,既有偏重exploration的,也有偏重exploitation的。
具体的,作者说当前RL里面有两个问题需要解决,一个是long-term credit assignment,另一个是exploration。NGU算法主要改进就是设计了short-term novelty within an episode和long-term novelty across episodes作为intrinsic reward来做探索。然后作者做的改进主要是把intrinsic reward和extrinsic reward分开来学,并且用一个meta-controller的模块来自动选择policy的训练,各个policy的区别就在于探索率和折扣因子\((\beta_j,\gamma_j)\)。最后相对于R2D2算法,把循环神经网络的window扩大一倍。
然后就套DQN算法,用\(\epsilon_l\)-greedy的方式来交互,每个policy的greedy概率都不一样,然后Q function分解为

meta-controller就用UCB的变种

这里的\(\epsilon\)就和DQN一样,然后sliding-window就是说在算UCB的时候,我的value因为是一直在变化的,所以就用一个sliding-window平均一下。
总结:是一个巨大的进步吧,不过这个交互的算力还是太惊人了,都要1e11了。

疑问:Q function分开更新估计还有不少细节啊。

posted @ 2022-05-02 23:08  initial_h  阅读(443)  评论(0编辑  收藏  举报