摘要: 详解近端策略优化(ppo,干货满满) 本文首发于行者AI 引言 上一篇文章我们详细介绍了策略梯度算法(PG),ppo其实就是策略梯度的一种变形。首先介绍一下同策略(on-policy)与异策略(off-policy)的区别。 在强化学习里面,我们需要学习的其实就是一个智能体。如果要学习的智能体跟和环境互动的智能体是同一个的话,称之为同策 阅读全文
posted @ 2022-02-24 14:42 行者AI 阅读(9932) 评论(1) 推荐(1) 编辑