摘要: 强化学习-学习笔记11 | 解决高估问题 这是 价值学习高级技巧第二篇。在实际应用中DQN会引起高估,进而影响动作的正确选择。本文介绍的高估问题解决办法为:Target Network & Double DQN. 阅读全文
posted @ 2022-07-08 17:31 climerecho 阅读(839) 评论(0) 推荐(1) 编辑
摘要: 强化学习-学习笔记10 | 经验回放 Experience Replay 经验回放。价值学习高级技巧第一篇。之前讲解的 价值学习的方法 都很简单,所以实现效果并不优秀。接下来会介绍一些高级的技巧,可以大幅度提高 DQN 的表现。Experience Replay 是最重要的技巧。 阅读全文
posted @ 2022-07-08 11:43 climerecho 阅读(1152) 评论(0) 推荐(0) 编辑