Evolution Strategies as a Scalable Alternative to Reinforcement Learning
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Abstract
我们探索使用进化策略(ES)(一种黑盒优化算法)来替代流行的基于MDP的RL技术(例如Q学习和策略梯度)。在MuJoCo和Atari上进行的实验表明,ES是一种可行的解决方案策略,可以很好地扩展可用CPU的数量:通过使用基于公共随机数的新颖通信策略,我们的ES实现仅需要传递标量,从而可以扩展到超过一千名并行工作器。这使我们能够在10分钟的训练中解决10分钟内的3D人形行走问题,并在大多数Atari游戏中获得可比结果。此外,我们着重介绍了ES作为黑盒优化技术的一些优点:它对动作频率和延迟的奖励是不变的,可以忍受极长的视野,并且不需要时间折扣或价值函数近似。
1 Introduction
2 Evolution Strategies
2.1 Scaling and parallelizing ES
2.2 The impact of network parameterization
3 Smoothing in parameter space versus smoothing in action space
3.1 When is ES better than policy gradients?
3.2 Problem dimensionality
3.3 Advantages of not calculating gradients
4 Experiments
4.1 MuJoCo
4.2 Atari
4.3 Parallelization
4.4 Invariance to temporal resolution
5 Related work
6 Conclusion