会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Clivia Du
A student of CS who enjoys electronic design
博客园
首页
联系
订阅
管理
2022年7月12日
强化学习-学习笔记14 | 策略梯度中的 Baseline
摘要:
引入 baseline ,可以通过降低随机梯度造成的方差来加速强化学习的收敛,介绍了两种算法Reinforce with baseline 以及 A2C。
阅读全文
posted @ 2022-07-12 11:29 climerecho
阅读(959)
评论(0)
推荐(0)
编辑
公告