Improvements since Nature DQN / 2014~2016

Intro

如果想省时间，建议直接看：Rainbow

抓两个点：

更新evaluate-network的损失函数：
\(Loss = (r + \gamma * max_{a' \in A}Q(s',a'|\theta^{-})-Q(s,a|\theta))^2\)

较Vanilla DQN只修改了TD target计算方法，它的损失函数是：

\(Loss = (r+ \gamma * Q(s',argmax_{a'}Q(s',a'|\theta)|\theta^{-})-Q(s,a|\theta))^2\)

针对DQN的模型构造作出修改，将最后一层分出两个channel，然后对两个channel合并作为输出。

结构图对比：

正如其名“七色彩虹”，这个算法就是多个算法的糅合。

将Double DQN的TD Target, Prioritied Replay Buffer, Duelling DQN的模型结构，Multi-step Learning，Distribution RL，NoisyNet组合到一起，就成了结合体Rainbow。

posted @ 2020-12-06 19:57 dynmi 阅读(155) 评论(0) 收藏举报

刷新页面返回顶部