摘要: 确定性策略梯度算法属于 Actor-Critic 类,综合了 value based 方法和 policy based 方法的优点,在很多任务上的表现能吊打 PG 类算法,比如 gym 的经典难题 BipedalWalker 项目。这里介绍的有两种: DDPG 和它的升级版:TD3,后续还会加入 D4PG 等更多变体的介绍。 阅读全文
posted @ 2020-05-21 16:18 Quantum-Cheese 阅读(377) 评论(0) 推荐(0) 编辑