梯度下降优化算法综述与PyTorch实现源码剖析

现代的机器学习系统均利用大量的数据，利用梯度下降算法或者相关的变体进行训练。传统上，最早出现的优化算法是SGD，之后又陆续出现了AdaGrad、RMSprop、ADAM等变体，那么这些算法之间又有哪些区别和联系呢？本文试图对比的介绍目前常用的基于一阶梯度的优化算法，并给出它们的(PyTorch)实现。

SGD

算法描述

随机梯度下降法(Stochastic Gradient Descent，SGD)是对传统的梯度下降算法(Gradient Descent,GD)进行的一种改进。在应用GD时，我们需要对整个训练集进行一次反向传播计算梯度后再进行参数更新，对系统的计算能力和内存的需求较高，而SGD在计算梯度更新参数时刚好相反，每次只使用整个训练集中的一个样本，因此具有更快地计算速度和较少的内存占用。同时，因为每次只使用一个样本更新参数，使得参数更新更加频繁，更新的参数间具有更高的方差，损失函数会朝不同的方向有较大的波动，这有助于发现新的极值点，避免优化器陷入一个局部极值点。但是也由于这种频繁的震荡，出现了一种折中的方法，即小批量(mini-batch)梯度下降法，每次只取训练集中一个batch的样本进行梯度的计算与参数更新，一般batch的大小为4的倍数。原始SGD的更新法则如下： $\begin{matrix} θ=θ-η\cdot\nablaθJ(θ)(1)(1)θ=θ-η\cdot\nablaθJ(θ) \end{matrix}$

传统SGD面临的问题

传统的SGD在训练的过程中主要存在以下几个问题：

很难选择一个合适的学习速率，太小的学习速率导致算法收敛很慢，而太大的学习速率会导致在极值点附近震荡甚至错过，因此需要经过多次尝试。
Learning rate schedules往往实现定义一个学习速率衰减表，比如每过多少step对学习速率进行decay，但是这些策略往往没法按照某个数据集的具体参数特性进行定制。
对于比较稀疏的数据，不同的特征出现的频率差别很大，如果所有的参数均使用一个相同的学习速率进行更新，这样做是不合理的。对于出现频率的特征，我们应该使用一个较大的学习速率。
深度神经网络之所以难以训练，并不是因为容易陷入局部最小值，而是在学习的过程中陷入到鞍点(saddle point)，此时往各个方向的梯度几乎均为0。如果以二维平面为例， $y = x^{3}$

Momentum

针对以上提到的第四点问题，可以通过增加动量(Momentum)的SGD进行缓解，加速优化函数的收敛。 $\begin{matrix} {vt=γvt-1-η\cdot\nablaθJ(θ)θ=θ+vt(2)(2)vt=γvt-1-η\cdot\nablaθJ(θ)θ=θ+vt所谓的添加动量项，即在一定程度上保留上一次梯度更新的方向，γ,ηγ,η分别用来控制上次梯度方向和本次梯度方向对最终更新方向的贡献程度，其中γ\in(0,1]γ\in(0,1]在开始阶段常常被设置为0.5，当学习趋向稳定后，逐渐增加到0.9甚至更高。可以把待优化的目标函数想象成一座山，在山顶将一个小球推下，小球在山坡上滚动的位置即系统的loss值，在往下滚动的过程中小球的动量不断增加，由于动量的存在，当小球滚动到山坡中较为平坦的地带时，小球将更容易越过这片地带继续往下滚而不是陷在这一区域停滞不前，并最终到达山谷。}_{t=γvt-1-η\cdot\nablaθJ(θ)θ=θ+vt(2)(2)vt=γvt-1-η\cdot\nablaθJ(θ)θ=θ+vt所谓的添加动量项，即在一定程度上保留上一次梯度更新的方向，γ,ηγ,η分别用来控制上次梯度方向和本次梯度方向对最终更新方向的贡献程度，其中γ\in(0,1]γ\in(0,1]在开始阶段常常被设置为0.5，当学习趋向稳定后，逐渐增加到0.9甚至更高。可以把待优化的目标函数想象成一座山，在山顶将一个小球推下，小球在山坡上滚动的位置即系统的loss值，在往下滚动的过程中小球的动量不断增加，由于动量的存在，当小球滚动到山坡中较为平坦的地带时，小球将更容易越过这片地带继续往下滚而不是陷在这一区域停滞不前，并最终到达山谷。} \end{matrix}$

图1 左：原始SGD 右：SGD+Momentum

Nesterov Accelerated Gradient

Its better to correct a mistake after you have made it!

目前我们有了一个带有动量的小球，但是这个小球在滚动的过程中总是随着山势的变化滚动，因此其行进的路径极不稳定。因此我们希望有一个更加“聪明”的小球，它不但拥有动量，而且能够知道自己将要去哪，这样当前面出现上坡小球能够进行减速。比如说，当接近坡底时，小球应该提前减速避免错过坡底。 $\begin{matrix} {vt=γvt-1-η\nablaθJ(θ+γvt-1)θ=θ+vt(3)(3)vt=γvt-1-η\nablaθJ(θ+γvt-1)θ=θ+vt具体的实现也非常的直接，就是将传统的Momentum方法对θθ计算梯度变为对θ+γvt-1θ+γvt-1求梯度，这一项可以看做对小球下一步将会往哪运动的一个粗略估计。也就是说，我们的小球有了一定的对未来的“预测”能力。就像本节开头说的，如果我们知道了小球之后会犯什么错误，那么是否更容易更正错误呢？下图上半部分是传统Momentum求下一次梯度更新方向，下半部分则是使用NAG求下一次更新方向的方法。}_{t=γvt-1-η\nablaθJ(θ+γvt-1)θ=θ+vt(3)(3)vt=γvt-1-η\nablaθJ(θ+γvt-1)θ=θ+vt具体的实现也非常的直接，就是将传统的Momentum方法对θθ计算梯度变为对θ+γvt-1θ+γvt-1求梯度，这一项可以看做对小球下一步将会往哪运动的一个粗略估计。也就是说，我们的小球有了一定的对未来的“预测”能力。就像本节开头说的，如果我们知道了小球之后会犯什么错误，那么是否更容易更正错误呢？下图上半部分是传统Momentum求下一次梯度更新方向，下半部分则是使用NAG求下一次更新方向的方法。} \end{matrix}$

图2 Momentum与NAG更新的区别

当然，在具体实现时，直接计算 $θ + γ v_{t - 1}$

v_prev = v  #备份vt-1项
v = mu*v - lr * g  #这一步和传统的Momentum计算一样
p += -mu*v_prev + (1+mu)*v  #更新时真实的p应该为p-mu*v_prev，更新后为p-mu*v_prev+v，但是为了方便计算加上上次动量项的梯度，这里的p直接保存为p-mu*v_prev+v+mu*v,也就是p(小球)的“未来位置”。

PyTorch实现

Momentum/NAG的实现和原始论文中的实现有些许的不用，具体的，在PyTorch实现中按照如下的公式更新梯度,其中 $η$

def step(self, closure=None):
    """Performs a single optimization step.

    Arguments:
        closure (callable, optional): A closure that reevaluates the model
            and returns the loss.
    """
    loss = None
    if closure is not None:
        loss = closure()

    for group in self.param_groups:
        weight_decay = group['weight_decay']
        momentum = group['momentum']
        dampening = group['dampening']
        nesterov = group['nesterov']

        for p in group['params']:
            if p.grad is None:
                continue
            d_p = p.grad.data
            if weight_decay != 0:
                d_p.add_(weight_decay, p.data)
            if momentum != 0:   #动量项添加
                param_state = self.state[p]
                if 'momentum_buffer' not in param_state:
                    buf = param_state['momentum_buffer'] = d_p.clone()
                else:
                    buf = param_state['momentum_buffer']
                    buf.mul_(momentum).add_(1 - dampening, d_p)
                if nesterov:    #如果使用NAG，则为t+1步先保存可能到达的“位置”
                    d_p = d_p.add(momentum, buf)
                else:
                    d_p = buf

            p.data.add_(-group['lr'], d_p)

    return loss

AdaGrad

算法描述

AdaGrad为的是解决传统的SGD对所有参数使用相同的学习速率的问题(即1.2节中提到的第三点问题)。它使用参数的历史梯度累计和去归一化该参数对应的学习速率。具体的，对于经常出现的参数，那么其梯度累积和较大，归一化的学习速率就较小。而对于不常见的参数，往往包含更多关于特征的信息，累积和较小，归一化后的学习速率较大，也即是学习算法应该更加关注这些罕见的特征的出现。 $\begin{matrix} {Gt,ii=Gt-1,ii+g2t,iθt+1,i=θt,i-η\sqrtGt,ii+ϵ\cdotgt,i(5)(5)Gt,ii=Gt-1,ii+gt,i2θt+1,i=θt,i-ηGt,ii+ϵ\cdotgt,i当然，通过观察式(5)，我们也发现AdaGrad在学习速率的调整上存在过于激进的问题，随着时间的累积，Gt,iiGt,ii这一项会越来越大，导致归一化的学习速率越来越小，这有可能导致优化函数在收敛之前就停止更新。}_{t,ii=Gt-1,ii+g2t,iθt+1,i=θt,i-η\sqrtGt,ii+ϵ\cdotgt,i(5)(5)Gt,ii=Gt-1,ii+gt,i2θt+1,i=θt,i-ηGt,ii+ϵ\cdotgt,i当然，通过观察式(5)，我们也发现AdaGrad在学习速率的调整上存在过于激进的问题，随着时间的累积，Gt,iiGt,ii这一项会越来越大，导致归一化的学习速率越来越小，这有可能导致优化函数在收敛之前就停止更新。} \end{matrix}$

PyTorch实现

class torch.optim.Adagrad(params, lr=0.01, lr_decay=0, weight_decay=0)

def step(self, closure=None):
        """Performs a single optimization step.

        Arguments:
            closure (callable, optional): A closure that reevaluates the model
                and returns the loss.
        """
        loss = None
        if closure is not None:
            loss = closure()

        for group in self.param_groups:
            for p in group['params']:
                if p.grad is None:
                    continue

                grad = p.grad.data
                state = self.state[p]

                state['step'] += 1

                if group['weight_decay'] != 0:
                    if p.grad.data.is_sparse:
                        raise RuntimeError("weight_decay option is not compatible with sparse gradients ")
                    grad = grad.add(group['weight_decay'], p.data)

                clr = group['lr'] / (1 + (state['step'] - 1) * group['lr_decay'])

                if p.grad.data.is_sparse:
                    grad = grad.coalesce()  # the update is non-linear so indices must be unique
                    grad_indices = grad._indices()
                    grad_values = grad._values()
                    size = torch.Size([x for x in grad.size()])

                    def make_sparse(values):
                        constructor = type(p.grad.data)
                        if grad_indices.dim() == 0 or values.dim() == 0:
                            return constructor()
                        return constructor(grad_indices, values, size)
                    state['sum'].add_(make_sparse(grad_values.pow(2)))
                    std = state['sum']._sparse_mask(grad)
                    std_values = std._values().sqrt_().add_(1e-10)
                    p.data.add_(-clr, make_sparse(grad_values / std_values))
                else:
                    state['sum'].addcmul_(1, grad, grad)    #更新核心部分
                    std = state['sum'].sqrt().add_(1e-10)
                    p.data.addcdiv_(-clr, grad, std)

        return loss

Adadelta

为了避免AdaGrad存在的学习过早停止的问题，Adadelta不再保存过去所有时刻的梯度和，而是采用decaying average的方法平滑过去的梯度值和参数值。

算法描述

图3 Adadelta伪代码描述

$θ + γ v_{t - 1}$

PyTorch实现

代码的实现很简单，也是完全按照上图描述的流程进行计算和更新。 > class torch.optim.Adadelta(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)

def step(self, closure=None):
    """Performs a single optimization step.

    Arguments:
        closure (callable, optional): A closure that reevaluates the model
            and returns the loss.
    """
    loss = None
    if closure is not None:
        loss = closure()

    for group in self.param_groups:
        for p in group['params']:
            if p.grad is None:
                continue
            grad = p.grad.data
            state = self.state[p]

            # State initialization
            if len(state) == 0:
                state['step'] = 0
                state['square_avg'] = grad.new().resize_as_(grad).zero_()
                state['acc_delta'] = grad.new().resize_as_(grad).zero_()

            square_avg, acc_delta = state['square_avg'], state['acc_delta']
            rho, eps = group['rho'], group['eps']

            state['step'] += 1

            if group['weight_decay'] != 0:
                grad = grad.add(group['weight_decay'], p.data)

            square_avg.mul_(rho).addcmul_(1 - rho, grad, grad)  #更新核心部分
            std = square_avg.add(eps).sqrt_()
            delta = acc_delta.add(eps).sqrt_().div_(std).mul_(grad)
            p.data.add_(-group['lr'], delta)
            acc_delta.mul_(rho).addcmul_(1 - rho, delta, delta)

    return loss

RMSprop

算法描述

RMSprop算法并没有被正式的发表，而是Geoff Hinton在他的课程中提及。RMSprop是一种十分高效的算法，可以看作是对AdaGrad算法的改进，对历史的梯度信息使用decaying average的方式进行累计，在学习速率的处理上不再像AdaGrad那么激进。 $\begin{matrix} E[g2]t=ρE[g2]t-1+(1-ρ)g2tθt+1=θt-η\sqrtE[g2]t+ϵgt(6)(6)E[g2]t=ρE[g2]t-1+(1-ρ)gt2θt+1=θt-ηE[g2]t+ϵgtRMSprop也可以和传统的momentum方法结合，但是Hinton表示这样做的帮助不是很大(相对于其对传统SGD的帮助而言)，具体的原因需要更多的研究。当然如果和Nesterov momentum结合能够有更好的效果。 \end{matrix}$

PyTorch实现

class torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)

在PyTorch实现中，有一个centered的标志，即是否使用centered版本的RMSprop。 centered版本的的RMSprop按照 $\begin{matrix} E[g2]t=ρE[g2]t-1+(1-ρ)g2tE[g]t=ρE[g]t-1+(1-ρ)gtθt+1=θt-η\sqrtE[g2]t-E[g]2t+ϵgt(7)更新梯度。(7)E[g2]t=ρE[g2]t-1+(1-ρ)gt2E[g]t=ρE[g]t-1+(1-ρ)gtθt+1=θt-ηE[g2]t-E[g]t2+ϵgt \end{matrix}$

def step(self, closure=None):
    """Performs a single optimization step.

    Arguments:
        closure (callable, optional): A closure that reevaluates the model
            and returns the loss.
    """
    loss = None
    if closure is not None:
        loss = closure()

    for group in self.param_groups:
        for p in group['params']:
            if p.grad is None:
                continue
            grad = p.grad.data
            state = self.state[p]

            # State initialization
            if len(state) == 0:
                state['step'] = 0
                state['square_avg'] = grad.new().resize_as_(grad).zero_()
                if group['momentum'] > 0:
                    state['momentum_buffer'] = grad.new().resize_as_(grad).zero_()
                if group['centered']:
                    state['grad_avg'] = grad.new().resize_as_(grad).zero_()

            square_avg = state['square_avg']
            alpha = group['alpha']

            state['step'] += 1

            if group['weight_decay'] != 0:
                grad = grad.add(group['weight_decay'], p.data)

            square_avg.mul_(alpha).addcmul_(1 - alpha, grad, grad)

            if group['centered']:   #使用centered RMSprop
                grad_avg = state['grad_avg']
                grad_avg.mul_(alpha).add_(1 - alpha, grad)
                avg = square_avg.addcmul(-1, grad_avg, grad_avg).sqrt().add_(group['eps'])
            else:
                avg = square_avg.sqrt().add_(group['eps'])

            if group['momentum'] > 0:   #添加动量项
                buf = state['momentum_buffer']
                buf.mul_(group['momentum']).addcdiv_(grad, avg)
                p.data.add_(-group['lr'], buf)
            else:
                p.data.addcdiv_(-group['lr'], grad, avg)

    return loss

ADAM

ADAM启发自AdaGrad和RMSProp两种优化算法，是一种利用一阶梯度的随机优化算法。它利用梯度的一阶和二阶矩估计为每个参数计算自适应的学习速率。这种优化算法具有容易实现，计算效率高，内存要求低的特点，尤其适合具有大量参数或数据维度较高的函数的优化。同时，ADAM也适合非平稳目标(non-stationary objectives)或者梯度非常嘈杂或者稀疏的目标的优化。优化器的超参数具有非常直观的解释，通常不需要过多的调试就可以获得一组比较好的参数设置。

算法描述

ADAM算法1

图4 ADAM算法伪代码描述

$θ + γ v_{t - 1}$

PyTorch实现

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)

其中具体实现利用了论文中提出的一种等效但是更高效的实现方式，即把图4的算法中最后三行替换为如下的计算方式。

$θ + γ v_{t - 1}$

AdaMax

算法描述

$θ + γ v_{t - 1}$

图5 AdaMax算法伪代码描述

$θ + γ v_{t - 1}$

PyTorch实现

class torch.optim.Adamax(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)

$θ + γ v_{t - 1}$

算法可视化

图6和图7(Image credit: )展示了不同的算法在优化目标函数时的行为。

$θ + γ v_{t - 1}$

图6 不同算法收敛速度比较

$θ + γ v_{t - 1}$

图7 不同算法摆脱鞍点的速度比较

Which optimizer to use?

这一段主要参考了Sebastian Ruder的。既然有这么多的优化算法，那么在实际使用时我们应该选择使用哪个呢？如果你的输入数据比较稀疏，那么最好选择一个具有自适应学习速率的算法，这样使用一个默认的学习速率往往也能取得一个较好的效果。总的来说，RMSprop是AdaGrad的一个扩展，用来处理后期学习速率急剧下降的问题。Adadelta和RMSprop类似，不过历史参数值的引入使其甚至不需要设置一个初始的全局学习速率。最后Adam在RMSprop的基础上增加了偏差校正( bias-correction)和momentum。RMSprop、Adadelta和Adam是三种比较相似的算法，但是往往在优化的末期梯度十分稀疏的时候Adam的效果更好。因此，在一般使用时Adam是首选。

$θ + γ v_{t - 1}$

参考文献

$θ + γ v_{t - 1}$

posted @ 2019-07-04 00:56 交流_QQ_2240410488 阅读(636) 评论(0) 编辑收藏举报

刷新页面返回顶部

劲风的味道

梯度下降优化算法综述与PyTorch实现源码剖析

SGD

算法描述

传统SGD面临的问题

Momentum

Nesterov Accelerated Gradient

PyTorch实现

AdaGrad

算法描述

PyTorch实现

Adadelta

算法描述

PyTorch实现

RMSprop

算法描述

PyTorch实现

ADAM

算法描述

PyTorch实现

AdaMax

算法描述

PyTorch实现

算法可视化

Which optimizer to use?

参考文献

公告