会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Wujunde
博客园
首页
新随笔
联系
管理
订阅
2019年4月22日
记reinforcement learning double DQNS
摘要: 传统的DQN算法会导致overestimate。因为在训练开始时,最大的Q值并不一定是最好的行为。 也就是说较差的行为Q值相对较大,较好的行为Q值相对较小。这时我们在更新Q值时用最大期望来计算我们作为标签的Q值期望,会进一步导致上一个状态的Q值虚高。当然因为有explorating, 所以最后还是会
阅读全文
posted @ 2019-04-22 09:19 Wujunde
阅读(99)
评论(0)
推荐(0)
编辑