10 2018 档案

强化学习(十一) Prioritized Replay DQN

摘要：在强化学习（十）Double DQN (DDQN)中，我们讲到了DDQN使用两个Q网络，用当前Q网络计算最大Q值对应的动作，用目标Q网络计算这个最大动作对应的目标Q值，进而消除贪婪法带来的偏差。今天我们在DDQN的基础上，对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay 阅读全文

posted @ 2018-10-16 16:46 刘建平Pinard 阅读(51850) 评论(153) 推荐(14) 编辑

强化学习（十）Double DQN (DDQN)

摘要：在强化学习（九）Deep Q-Learning进阶之Nature DQN中，我们讨论了Nature DQN的算法流程，它通过使用两个相同的神经网络，以解决数据样本和网络训练之前的相关性。但是还是有其他值得优化的点，文本就关注于Nature DQN的一个改进版本: Double DQN算法（以下简称D 阅读全文

posted @ 2018-10-12 16:52 刘建平Pinard 阅读(107143) 评论(77) 推荐(8) 编辑

强化学习（九）Deep Q-Learning进阶之Nature DQN

摘要：在强化学习（八）价值函数的近似表示与Deep Q-Learning中，我们讲到了Deep Q-Learning（NIPS 2013）的算法和代码，在这个算法基础上，有很多Deep Q-Learning(以下简称DQN)的改进版，今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 201 阅读全文

posted @ 2018-10-08 20:40 刘建平Pinard 阅读(68638) 评论(84) 推荐(12) 编辑

公告

★珠江追梦，饮岭南茶，恋鄂北家★

你的支持是我写作的动力：

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

10 2018 档案

公告

积分与排名

随笔分类 (135)

随笔档案 (135)

常去的机器学习网站

阅读排行榜

评论排行榜

推荐排行榜