会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
刘建平Pinard
十五年码农,对数学统计学,数据挖掘,机器学习,大数据平台,大数据平台应用开发,大数据可视化感兴趣。
博客园
首页
新随笔
联系
订阅
管理
随笔 - 135
文章 - 0
评论 - 14147
阅读 -
1250万
12 2018 档案
强化学习(十三) 策略梯度(Policy Gradient)
摘要:在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradien
阅读全文
posted @
2018-12-18 18:04
刘建平Pinard
阅读(120590)
评论(177)
推荐(14)
编辑
公告
★珠江追梦,饮岭南茶,恋鄂北家★
你的支持是我写作的动力:
昵称:
刘建平Pinard
园龄:
8年4个月
粉丝:
10733
关注:
15
+加关注
积分与排名
积分 - 489266
排名 - 1459
随笔分类
(135)
0040. 数学统计学(9)
0081. 机器学习(71)
0082. 深度学习(11)
0083. 自然语言处理(23)
0084. 强化学习(19)
0121. 大数据挖掘(1)
0122. 大数据平台(1)
随笔档案
(135)
2019年7月(1)
2019年6月(1)
2019年5月(2)
2019年4月(3)
2019年3月(2)
2019年2月(2)
2019年1月(2)
2018年12月(1)
2018年11月(1)
2018年10月(3)
2018年9月(3)
2018年8月(4)
2018年7月(3)
2018年6月(3)
2018年5月(3)
2017年8月(1)
2017年7月(3)
2017年6月(8)
2017年5月(7)
2017年4月(5)
2017年3月(10)
2017年2月(7)
2017年1月(13)
2016年12月(17)
2016年11月(22)
2016年10月(8)
更多
常去的机器学习网站
强化学习入门书
52 NLP
Analytics Vidhya
深度学习进阶书
深度学习入门书
机器学习路线图
机器学习库
阅读排行榜
1. 梯度下降(Gradient Descent)小结(537513)
2. 梯度提升树(GBDT)原理小结(338606)
3. K-Means聚类算法原理(329605)
4. 谱聚类(spectral clustering)原理总结(328743)
5. 线性判别分析LDA原理总结(299070)
评论排行榜
1. 梯度提升树(GBDT)原理小结(617)
2. 集成学习之Adaboost算法原理小结(362)
3. 决策树算法原理(下)(342)
4. 强化学习(十六) 深度确定性策略梯度(DDPG)(318)
5. 谱聚类(spectral clustering)原理总结(299)
推荐排行榜
1. 梯度下降(Gradient Descent)小结(165)
2. 奇异值分解(SVD)原理与在降维中的应用(124)
3. 谱聚类(spectral clustering)原理总结(87)
4. 集成学习之Adaboost算法原理小结(70)
5. MCMC(一)蒙特卡罗方法(69)
点击右上角即可分享