2018年2月8日

摘要: 随机性策略和确定性策略: 随机性策略,策略输出的是动作的概率,比如上一篇A3C博客提到的连续动作控制,使用的是一个正态分布对动作进行采样选择,即每个动作都有概率被选到;优点,将探索和改进集成到一个策略中;缺点,需要大量训练数据。 确定性策略,策略输出即是动作;优点,需要采样的数据少,算法效率高;缺点 阅读全文
posted @ 2018-02-08 09:33 WegZumHimmel 阅读(596) 评论(0) 推荐(0) 编辑

导航