DDPG概念

随机性策略和确定性策略:

  • 随机性策略,策略输出的是动作的概率,比如上一篇A3C博客提到的连续动作控制,使用的是一个正态分布对动作进行采样选择,即每个动作都有概率被选到;优点,将探索和改进集成到一个策略中;缺点,需要大量训练数据。
  • 确定性策略,策略输出即是动作;优点,需要采样的数据少,算法效率高;缺点,无法探索环境。

posted on 2018-02-08 09:33  WegZumHimmel  阅读(589)  评论(0编辑  收藏  举报

导航