会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
WegZumHimmel
2018年2月8日
DDPG概念
摘要: 随机性策略和确定性策略: 随机性策略,策略输出的是动作的概率,比如上一篇A3C博客提到的连续动作控制,使用的是一个正态分布对动作进行采样选择,即每个动作都有概率被选到;优点,将探索和改进集成到一个策略中;缺点,需要大量训练数据。 确定性策略,策略输出即是动作;优点,需要采样的数据少,算法效率高;缺点
阅读全文
posted @ 2018-02-08 09:33 WegZumHimmel
阅读(596)
评论(0)
推荐(0)
编辑
导航
博客园
首页
新随笔
联系
订阅
管理
公告