摘要: 这篇同样是完全没看懂 Orz,这里只做实现记录。。 要改动的地方只是在神经网络的最后一层做下调整即可。 完整代码 优先采样: 神经网络: 主逻辑功能: 阅读全文
posted @ 2017-06-22 09:21 cjnmy36723 阅读(922) 评论(1) 推荐(1) 编辑
摘要: 也就是优先采样,这里的推导部分完全没看懂 Orz,这里也只是记录实现代码。 也就是看了以下两篇文章对应做了实现。 莫烦老师的教程: https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/4-6-p 阅读全文
posted @ 2017-06-22 09:17 cjnmy36723 阅读(1102) 评论(0) 推荐(0) 编辑
摘要: 这篇没搞懂。。。这里只对实现做记录。 修改的地方也只是在上一篇的基础上,在“记忆回放”函数里,计算 target Q 时取值做下调整即可。 完整代码 神经网络部分: 主逻辑实现: 阅读全文
posted @ 2017-06-22 09:07 cjnmy36723 阅读(1189) 评论(0) 推荐(0) 编辑
摘要: 由于 Q 值与 next Q 使用同一个网络时,是在一边更新一边学习,会不稳定。 所以,这个算法其实就是将神经网络拆分成 2 个,一个 Q 网络,用于同步更新 Q 值,另一个是 target 网络,用于计算目标 Q 值,并且每隔一段时间,自动将最新的 Q 网络的权值同步给 target 网络即可。 阅读全文
posted @ 2017-06-22 08:53 cjnmy36723 阅读(1566) 评论(0) 推荐(1) 编辑