2017 年 6月 22 日随笔档案 - cjnmy36723

2017年6月22日

Deep Q-Network 学习笔记（六）—— 改进④：dueling dqn

摘要：这篇同样是完全没看懂 Orz，这里只做实现记录。。要改动的地方只是在神经网络的最后一层做下调整即可。完整代码优先采样：神经网络：主逻辑功能：阅读全文

posted @ 2017-06-22 09:21 cjnmy36723 阅读(923) 评论(1) 推荐(1) 编辑

Deep Q-Network 学习笔记（五）—— 改进③：Prioritized Replay 算法

摘要：也就是优先采样，这里的推导部分完全没看懂 Orz，这里也只是记录实现代码。也就是看了以下两篇文章对应做了实现。莫烦老师的教程： https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/4-6-p 阅读全文

posted @ 2017-06-22 09:17 cjnmy36723 阅读(1103) 评论(0) 推荐(0) 编辑

Deep Q-Network 学习笔记（四）—— 改进②：double dqn

摘要：这篇没搞懂。。。这里只对实现做记录。修改的地方也只是在上一篇的基础上，在“记忆回放”函数里，计算 target Q 时取值做下调整即可。完整代码神经网络部分: 主逻辑实现：阅读全文

posted @ 2017-06-22 09:07 cjnmy36723 阅读(1193) 评论(0) 推荐(0) 编辑

Deep Q-Network 学习笔记（三）—— 改进①：nature dqn

摘要：由于 Q 值与 next Q 使用同一个网络时，是在一边更新一边学习，会不稳定。所以，这个算法其实就是将神经网络拆分成 2 个，一个 Q 网络，用于同步更新 Q 值，另一个是 target 网络，用于计算目标 Q 值，并且每隔一段时间，自动将最新的 Q 网络的权值同步给 target 网络即可。阅读全文

posted @ 2017-06-22 08:53 cjnmy36723 阅读(1568) 评论(0) 推荐(1) 编辑

公告