2019 年 4月 22 日随笔档案 - Wujunde

2019年4月22日

记reinforcement learning double DQNS

摘要：传统的DQN算法会导致overestimate。因为在训练开始时，最大的Q值并不一定是最好的行为。也就是说较差的行为Q值相对较大，较好的行为Q值相对较小。这时我们在更新Q值时用最大期望来计算我们作为标签的Q值期望，会进一步导致上一个状态的Q值虚高。当然因为有explorating, 所以最后还是会阅读全文

posted @ 2019-04-22 09:19 Wujunde 阅读(99) 评论(0) 推荐(0) 编辑