会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
行者AI
为游戏插上人工智能的翅膀
博客园
首页
新随笔
联系
订阅
管理
2022年2月24日
详解近端策略优化(ppo,干货满满)
摘要:
本文首发于行者AI 引言 上一篇文章我们详细介绍了策略梯度算法(PG),ppo其实就是策略梯度的一种变形。首先介绍一下同策略(on-policy)与异策略(off-policy)的区别。 在强化学习里面,我们需要学习的其实就是一个智能体。如果要学习的智能体跟和环境互动的智能体是同一个的话,称之为同策
阅读全文
posted @ 2022-02-24 14:42 行者AI
阅读(9932)
评论(1)
推荐(1)
编辑
公告