Evolution Strategies as a Scalable Alternative to Reinforcement Learning

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Abstract

　　我们探索使用进化策略(ES)(一种黑盒优化算法)来替代流行的基于MDP的RL技术(例如Q学习和策略梯度)。在MuJoCo和Atari上进行的实验表明，ES是一种可行的解决方案策略，可以很好地扩展可用CPU的数量：通过使用基于公共随机数的新颖通信策略，我们的ES实现仅需要传递标量，从而可以扩展到超过一千名并行工作器。这使我们能够在10分钟的训练中解决10分钟内的3D人形行走问题，并在大多数Atari游戏中获得可比结果。此外，我们着重介绍了ES作为黑盒优化技术的一些优点：它对动作频率和延迟的奖励是不变的，可以忍受极长的视野，并且不需要时间折扣或价值函数近似。

1 Introduction

2 Evolution Strategies

2.1 Scaling and parallelizing ES

2.2 The impact of network parameterization

3 Smoothing in parameter space versus smoothing in action space

3.1 When is ES better than policy gradients?

3.2 Problem dimensionality

3.3 Advantages of not calculating gradients

4 Experiments

4.1 MuJoCo

4.2 Atari

4.3 Parallelization

4.4 Invariance to temporal resolution

5 Related work

6 Conclusion

posted on 2021-04-26 11:09 穷酸秀才大草包阅读(235) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

穷酸秀才大艹包

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

导航

公告