Asynchronous Methods for Deep Reinforcement Learning(A3C)

Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016.

DeepMind rl系列文章之一。

他们提出了一个简单的轻量级框架，使得deep rl能通过异步更新进行训练。在单个多核CPU上只用了一半的训练时间，取得了优于以前模型在GPU上的训练结果。另外，该框架也支持连续输出的控制任务。

1.动机

类似于DQN, Double DQN等模型，是一种off-policy的训练方式，需要存储运行过程。他们提出了一种异步框架，能够实现on-policy，能够运用到多种rl模型上，训练时间和硬件要求大大降低，还能提高模型性能。他们自己觉得这个工作做得非常的好。当然，大家也觉得很好。

2.方法

（1）好处：作者指出，训练时间的减少量和并行的数量大约成线性。也就是说，learner越多，时间就越少。

（2）作者在one-step Qlearning, one-step Sarsa, n-step Q-learning and advantage actor-critic四个模型上实现了异步算法。在优化算法上，作者用了RMSProp。

实用程度：5颗星

基础理论：1颗星

创新程度：3颗星

posted @ 2017-08-10 17:36 Shiyu_Huang 阅读(570) 评论(0) 编辑收藏举报

刷新页面返回顶部

黄世宇@智谱AI，OpenRL Lab负责人，强化学习，LLM，通用人工智能[OpenRL][知乎][GitHub][Linkedin]如果你对人工智能前沿感兴趣，欢迎联系并加入我们！