2022 年 7月 8 日随笔档案 - climerecho

摘要：

这是价值学习高级技巧第二篇。在实际应用中DQN会引起高估，进而影响动作的正确选择。本文介绍的高估问题解决办法为：Target Network & Double DQN. 阅读全文

posted @ 2022-07-08 17:31 climerecho 阅读(1020) 评论(0) 推荐(1) 编辑

摘要：

Experience Replay 经验回放。价值学习高级技巧第一篇。之前讲解的价值学习的方法都很简单，所以实现效果并不优秀。接下来会介绍一些高级的技巧，可以大幅度提高 DQN 的表现。Experience Replay 是最重要的技巧。阅读全文

posted @ 2022-07-08 11:43 climerecho 阅读(1517) 评论(0) 推荐(0) 编辑

Clivia Du