强化学习--DeepQnetwork 的一些改进

Double DQN

算Q值与选Q值是分开的，2个网络。

Multi-step

Dueling DQN

如果更新了，即使有的action没有被采样到，也会更新Q值

Prioritized Reply

Noisy Net

Epsilon Greedy 存在的问题是在一局游戏中，

即使是同一个agent也有可能坐车不不同的选择，这是不合理的,

所以在一局游戏中，我们使用同一个q网络，在不回的回合给q网络

加入noise保证探索性。

posted @ 2019-01-14 15:10 乐乐章阅读(528) 评论(0) 编辑收藏举报

刷新页面返回顶部