深度学习中常用的优化器简介

SGD

mini-batch SGD 是最基础的优化方法，是后续改良方法的基础。下式给出SGD的更新公式

\[\theta_t = \theta_{t-1} - \alpha\nabla_\theta J(\theta) \]

其中\(\alpha\)是学习速率。

SGD with Momentum

带动量的mini-SGD的更新方法如下

\[\begin{split} v_t &= r\cdot v_{t-1} + \alpha\nabla_\theta J(\theta)\\ \theta_t &= \theta_{t-1} - v_t \end{split} \]

如果这一次的梯度与上一次的梯度方向一致，那么更新量就会越来越大，这样沿着负梯度的方向就会越走越快，可以使得模型收敛加速。

Nesterov Momentum

Nesterov Momentum是SGD with Momentum 的改进版，应用该方法的参数更新策略如下

\[\begin{split} v_t & = r\cdot v_{t-1} + \alpha\cdot \nabla_\theta J(\theta - r\cdot v_{t-1})\\ \theta_t &= \theta_{t-1} - v_t \end{split} \]

在计算梯度的时候，加入了预估的信息，这样可以在上坡之前提前减速，减少震荡，使得优化朝着更加有利的方向进行。

Adagrad

前面介绍的三种方法，所有的参数使用着完全一样的学习速率。但是，讲道理，不同的参数应该使用不同的学习速率，比如出现频率较低的参数更新幅度应该大，而频率高的参数更新幅度就相对小一些。AdaGrad正是这样的方法，更为具体的

\[\begin{split} v_t &= v_{t-1} + g_t^2\\ \theta_{t} &= \theta_{t-1} - \dfrac{\alpha}{\sqrt{v_t+\epsilon}}\cdot g_{t} \end{split} \]

其中\(\epsilon\)是平滑因子，避免被开方的数是0。这里解释了为什么更新频率低的参数其更新量相对会大些，因为这些参数对应的分母较小。但是，AdaGrad优化器也有着明显的缺点，当\(v_t\)累积到足够的大的时候，分式的结果会无限接近0，导致参数更新缓慢甚至根本无法被更新，使得训练提前结束。

RMSprop

RMSProp是AdaGrad的一种改良，其计算如下式所示：

\[\begin{split} v_t &= 0.9v_{t-1} + 0.1g_t^2\\ \theta_t &= \theta_{t-1} - \dfrac{\alpha}{\sqrt{v_t + \epsilon}}g_t \end{split} \]

可以看到，这里使用的是移动指数平均，不再是AdaGrad方法中的累加和，当\(\beta\)取0.9的时候，可以看作是最近10次梯度更新量的加权平均。

Adam

Adam是上述方法的集大成者，除了使用了梯度的平方移动加权均值，也使用了梯度本身的移动加权均值。其计算如下

\[\begin{split} m_t &= \beta_1m_{t-1} + (1-\beta_1)g_t\\ v_t &= \beta_2v_{t-1} + (1 - \beta_2)g_t^2\\ \hat{m}_t &= \dfrac{m_t}{1 - \beta_1^t}\\ \hat{v}_t &= \dfrac{v_t}{1- \beta_2^t}\\ \theta_t &= \theta_{t-1} - \dfrac{\alpha}{\sqrt{\hat{v}_t+\epsilon}}\hat{m}_t \end{split} \]

从上面的表达式中，可以看到，在计算移动指数平均的时候，还进行了修正，避免了移动指数平均的冷启动问题。

posted @ 2018-11-07 12:57 狂徒归来阅读(1362) 评论(0) 编辑收藏举报

刷新页面返回顶部

狂徒归来

人生如逆旅，我亦是行人

深度学习中常用的优化器简介

深度学习中常用的优化器简介

SGD

SGD with Momentum

Nesterov Momentum

Adagrad

RMSprop

Adam

公告