2019年4月22日

摘要: 传统的DQN算法会导致overestimate。因为在训练开始时,最大的Q值并不一定是最好的行为。 也就是说较差的行为Q值相对较大,较好的行为Q值相对较小。这时我们在更新Q值时用最大期望来计算我们作为标签的Q值期望,会进一步导致上一个状态的Q值虚高。当然因为有explorating, 所以最后还是会 阅读全文

posted @ 2019-04-22 09:19 Wujunde 阅读(97) 评论(0) 推荐(0) 编辑