摘要:
这是 价值学习高级技巧第二篇。在实际应用中DQN会引起高估,进而影响动作的正确选择。本文介绍的高估问题解决办法为:Target Network & Double DQN. 阅读全文
![强化学习-学习笔记11 | 解决高估问题](https://img2022.cnblogs.com/blog/2192866/202207/2192866-20220708173045857-1011056830.png)
摘要:
Experience Replay 经验回放。价值学习高级技巧第一篇。之前讲解的 价值学习的方法 都很简单,所以实现效果并不优秀。接下来会介绍一些高级的技巧,可以大幅度提高 DQN 的表现。Experience Replay 是最重要的技巧。 阅读全文
![强化学习-学习笔记10 | 经验回放](https://img2022.cnblogs.com/blog/2192866/202207/2192866-20220708114236729-312094703.png)