摘要:
这是 价值学习高级技巧第二篇。在实际应用中DQN会引起高估,进而影响动作的正确选择。本文介绍的高估问题解决办法为:Target Network & Double DQN. 阅读全文
摘要:
Experience Replay 经验回放。价值学习高级技巧第一篇。之前讲解的 价值学习的方法 都很简单,所以实现效果并不优秀。接下来会介绍一些高级的技巧,可以大幅度提高 DQN 的表现。Experience Replay 是最重要的技巧。 阅读全文