摘要: 目录 Policy based方法 vs Value based方法 策略网络 算法总体流程 如何通过对回归任务的优化来更新Q网络 为什么不可以同时更新Q网络和目标网络 为什么要使用带有探索策略的Q函数 探索策略的数学表达 ReplayBuffer的作用 Q值被高估的问题 源码实现 参考资料 DQN 阅读全文
posted @ 2020-09-30 15:00 黎明程序员 阅读(1193) 评论(0) 推荐(1) 编辑