会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
山竹果 BLOG
see more
首页
新随笔
联系
订阅
管理
2019年5月23日
强化学习复习笔记
摘要: Outline Actor-Critic 优势函数 自然策略梯度 策略梯度算法总结 Actor-Critic 学习价值函数,也学习策略。 使用Critic减少方差: 蒙特卡洛策略梯度具有高方差。 使用critic来评估动作- 价值函数: Actor-critic 算法包含两组参数:Critic 更新
阅读全文
posted @ 2019-05-23 22:15 山竹小果
阅读(760)
评论(0)
推荐(0)
编辑
公告