2020 年 5月 21 日随笔档案 - Quantum-Cheese

2020年5月21日

摘要：

确定性策略梯度算法属于 Actor-Critic 类，综合了 value based 方法和 policy based 方法的优点，在很多任务上的表现能吊打 PG 类算法，比如 gym 的经典难题 BipedalWalker 项目。这里介绍的有两种： DDPG 和它的升级版：TD3，后续还会加入 D4PG 等更多变体的介绍。阅读全文

posted @ 2020-05-21 16:18 Quantum-Cheese 阅读(377) 评论(0) 推荐(0) 编辑

Quantum-Cheese

公告