12 2018 档案

强化学习(十三) 策略梯度(Policy Gradient)

摘要：在前面讲到的DQN系列强化学习算法中，我们主要对价值函数进行了近似表示，基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用，但是Value Based强化学习方法也有很多局限性，因此在另一些场景下我们需要其他的方法，比如本篇讨论的策略梯度(Policy Gradien 阅读全文

posted @ 2018-12-18 18:04 刘建平Pinard 阅读(120590) 评论(177) 推荐(14) 编辑

公告

★珠江追梦，饮岭南茶，恋鄂北家★

你的支持是我写作的动力：

昵称：刘建平Pinard
园龄： 8年4个月
粉丝： 10733
关注： 15

+加关注

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

12 2018 档案

公告

积分与排名

随笔分类 (135)

随笔档案 (135)

常去的机器学习网站

阅读排行榜

评论排行榜

推荐排行榜