DDPG - WegZumHimmel - 博客园

DDPG

`DDPG` 的算法实际上就是一种 `Actor Critic`

关于 `Actor` 部分, 他的参数更新同样会涉及到 `Critic`, 上面是关于 `Actor` 参数的更新, 它的前半部分 `grad[Q]` 是从 `Critic` 来的, 这是在说: 这次 `Actor` 的动作要怎么移动, 才能获得更大的 `Q`, 而后半部分 `grad[u]` 是从 `Actor` 来的, 这是在说: `Actor` 要怎么样修改自身参数, 使得 `Actor` 更有可能做这个动作. 所以两者合起来就是在说: `Actor` 要朝着更有可能获取大 `Q` 的方向修改动作参数了.

上面这个是关于 `Critic` 的更新, 它借鉴了 `DQN` 和 `Double Q learning` 的方式, 有两个计算 `Q` 的神经网络, `Q_target` 中依据下一状态, 用 `Actor` 来选择动作, 而这时的 `Actor` 也是一个 `Actor_target` (有着 Actor 很久之前的参数). 使用这种方法获得的 `Q_target` 能像 `DQN` 那样切断相关性, 提高收敛性.

posted on 2017-12-26 16:11 WegZumHimmel 阅读(556) 评论(0) 编辑收藏举报

刷新页面返回顶部

导航

公告