2017 年 10月 20 日随笔档案 - _1024

强化学习(David Silver)7：策略梯度算法

摘要： 1、简介 1.1、PolicyBased方法优劣优势：更好的收敛特性在高维或者连续的action空间里面有效可以学习随机策略劣势：收敛到局部最优，而非全局最优 policy估计训练慢、高方差，有时候没有值函数有效:ValueBased方法使用Max贪心优化跑得快; 策略梯度方法在梯度方向阅读全文

posted @ 2017-10-20 19:52 _1024 阅读(1701) 评论(0) 推荐(0) 编辑

2017年10月20日