1、简介
1.1、PolicyBased方法优劣
优势:
更好的收敛特性
在高维或者连续的action空间里面有效
可以学习随机策略
劣势:
收敛到局部最优,而非全局最优
policy估计训练慢、高方差,有时候没有值函数有效:ValueBased方法使用Max贪心优化跑得快; 策略梯度方法在梯度方向走得慢
1.2、Policy方法的优化目标
这里有三个: 形式都没有看懂
1.3、Policy方法的优化算法
非梯度算法: 爬山法; 单纯性法/amoeba/NelderMead; 生成算法
梯度算法: 梯度/共轭梯度/拟牛顿
2、有限差分策略梯度
2.1、方法
不适用梯度公式, 直接使用梯度的定义来计算梯度
2.2、优缺点
优点: 简单有效, 不可微也可以计算
缺点: 慢, 效率低
36分钟的ScoreFunction是什么鬼???
2.3、策略梯度定理
对于任何目标函数, 策略梯度的形式都是一致的:
3、Monte-Carlo策略梯度
使用Monte-Carlo采样来计算策略梯度
4、Actor-Critic策略梯度
思想: Critic来拟合状态-动作值函数; Actor用来拟合值函数; 解决MC策略梯度高方差的问题
如果发现文中有问题,敬请联系作者批评指正,真诚欢迎您的指教,谢谢!
微信: legelsr0808
邮箱: legelsr0808@163.com