会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
LIN_KID
博客园
首页
新随笔
联系
订阅
管理
2020年1月11日
GAE&reward shaping
摘要: 策略算法(如TRPO,PPO)是一种流行的on policy方法。它可以提供无偏差的(或近似无偏差)梯度估计,但同时会导致高的方差。而像Q learning 和离线的actor critic(如DDPG)等off policy方法则可以用离线的样本来替代。它们可以使用其他学习过程产生的样本。这样的方
阅读全文
posted @ 2020-01-11 16:45 LIN_KID
阅读(845)
评论(0)
推荐(0)
编辑
公告