会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
_1024
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2017年10月20日
强化学习(David Silver)7:策略梯度算法
摘要: 1、简介 1.1、PolicyBased方法优劣 优势: 更好的收敛特性 在高维或者连续的action空间里面有效 可以学习随机策略 劣势: 收敛到局部最优,而非全局最优 policy估计训练慢、高方差,有时候没有值函数有效:ValueBased方法使用Max贪心优化跑得快; 策略梯度方法在梯度方向
阅读全文
posted @ 2017-10-20 19:52 _1024
阅读(1701)
评论(0)
推荐(0)
编辑