会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Quantum-Cheese
博客园
首页
新随笔
联系
订阅
管理
2020年5月21日
深度强化学习 — 确定性策略梯度类算法
摘要:
确定性策略梯度算法属于 Actor-Critic 类,综合了 value based 方法和 policy based 方法的优点,在很多任务上的表现能吊打 PG 类算法,比如 gym 的经典难题 BipedalWalker 项目。这里介绍的有两种: DDPG 和它的升级版:TD3,后续还会加入 D4PG 等更多变体的介绍。
阅读全文
posted @ 2020-05-21 16:18 Quantum-Cheese
阅读(377)
评论(0)
推荐(0)
编辑
公告