摘要: 该文章是针对Hado van Hasselt于2010年提出的Double Q-learning算法的进一步拓展,是结合了DQN网络后,提出的关于DQN的Double Q-learning算法。该算法主要目的是修正DQN中max项所产生的过高估计问题,所谓过高估计,在前面的博客Issues in U 阅读全文
posted @ 2019-03-11 19:34 Ruidongch 阅读(1359) 评论(0) 推荐(0) 编辑