深度学习:权重衰减、丢弃法、反向传播

1、权重衰减

过拟合现象:模型的训练误差远小于它在测试集上的误差。

虽然增大训练数据集可能会减轻过拟合,但是获取额外的训练数据往往代价高昂。

本节介绍应对过拟合问题的常用方法:权重衰减(weight decay)。

方法

权重衰减等价于L2范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段。我们先描述L2范数正则化,再解释它为何又称权重衰减。

L2范数正则化在模型原损失函数基础上添加L2范数惩罚项,从而得到训练所需要最小化的函数。L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。以“线性回归”一节中的线性回归损失函数

(w1,w2,b)=1ni=1n12(x1(i)w1+x2(i)w2+by(i))2

为例,其中w1,w2是权重参数,b是偏差参数,样本i的输入为x1(i),x2(i),标签为y(i),样本数为n。将权重参数用向量w=[w1,w2]表示,带有L2范数惩罚项的新损失函数为

(w1,w2,b)+λ2w2,

其中超参数λ>0。当权重参数均为0时,惩罚项最小。当λ较大时,惩罚项在损失函数中的比重较大,这通常会使学到的权重参数的元素较接近0。当λ设为0时,惩罚项完全不起作用。上式中L2范数平方w2展开后得到w12+w22。有了L2范数惩罚项后,在小批量随机梯度下降中,我们将“线性回归”一节中权重w1w2的迭代方式更改为

w1(1ηλ)w1η|B|iBx1(i)(x1(i)w1+x2(i)w2+by(i)),w2(1ηλ)w2η|B|iBx2(i)(x1(i)w1+x2(i)w2+by(i)).

可见,L2范数正则化令权重w1w2先自乘小于1的数,再减去不含惩罚项的梯度。因此,L2范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制,这可能对过拟合有效。实际场景中,我们有时也在惩罚项中添加偏差元素的平方和。

简洁实现

点击查看代码
def fit_and_plot_gluon(wd):
    net = nn.Sequential()
    net.add(nn.Dense(1))
    net.initialize(init.Normal(sigma=1))
    # 对权重参数衰减。权重名称一般是以weight结尾
    trainer_w = gluon.Trainer(net.collect_params('.*weight'), 'sgd',
                              {'learning_rate': lr, 'wd': wd})
    # 不对偏差参数衰减。偏差名称一般是以bias结尾
    trainer_b = gluon.Trainer(net.collect_params('.*bias'), 'sgd',
                              {'learning_rate': lr})
    train_ls, test_ls = [], []
    for _ in range(num_epochs):
        for X, y in train_iter:
            with autograd.record():
                l = loss(net(X), y)
            l.backward()
            # 对两个Trainer实例分别调用step函数,从而分别更新权重和偏差
            trainer_w.step(batch_size)
            trainer_b.step(batch_size)
        train_ls.append(loss(net(train_features),
                             train_labels).mean().asscalar())
        test_ls.append(loss(net(test_features),
                            test_labels).mean().asscalar())
    d2l.semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss',
                 range(1, num_epochs + 1), test_ls, ['train', 'test'])
    print('L2 norm of w:', net[0].weight.data().norm().asscalar())

2、丢弃法

除了权重衰减以外,深度学习模型常常使用丢弃法(dropout)来应对过拟合问题。

方法

一个单隐藏层的多层感知机:其中输入个数为4,隐藏单元个数为5,且隐藏单元hii=1,,5)的计算表达式为

hi=ϕ(x1w1i+x2w2i+x3w3i+x4w4i+bi),

这里ϕ是激活函数,x1,,x4是输入,隐藏单元i的权重参数为w1i,,w4i,偏差参数为bi。当对该隐藏层使用丢弃法时,该层的隐藏单元将有一定概率被丢弃掉。设丢弃概率为p
那么有p的概率hi会被清零,有1p的概率hi会除以1p做拉伸。丢弃概率是丢弃法的超参数。具体来说,设随机变量ξi为0和1的概率分别为p1p。使用丢弃法时我们计算新的隐藏单元hi

hi=ξi1phi.

由于E(ξi)=1p,因此

E(hi)=E(ξi)1phi=hi.

即丢弃法不改变其输入的期望值。

对隐藏层使用丢弃法,一种可能的结果如图3.5所示,其中h2h5被清零。这时输出值的计算不再依赖h2h5,在反向传播时,与这两个隐藏单元相关的权重的梯度均为0。由于在训练中隐藏层神经元的丢弃是随机的,即h1,,h5都有可能被清零,输出层的计算无法过度依赖h1,,h5中的任一个,从而在训练模型时起到正则化的作用,并可以用来应对过拟合。在测试模型时,我们为了得到更加确定性的结果,一般不使用丢弃法。

简洁实现

在Gluon中,我们只需要在全连接层后添加Dropout层并指定丢弃概率。在训练模型时,Dropout层将以指定的丢弃概率随机丢弃上一层的输出元素;在测试模型时,Dropout层并不发挥作用。

  • 我们可以通过使用丢弃法应对过拟合。
  • 丢弃法只在训练模型时使用。

3、正向传播、反向传播和计算图

前面几节里我们使用了小批量随机梯度下降的优化算法来训练模型。在实现中,我们只提供了模型的正向传播的计算,即对输入计算模型输出,然后通过autograd模块来调用系统自动生成的backward函数计算梯度。基于反向传播算法的自动求梯度极大简化了深度学习模型训练算法的实现。本节我们将使用数学来描述正向传播和反向传播。具体来说,我们将以带L2范数正则化的含单隐藏层的多层感知机为样例模型解释正向传播和反向传播。

正向传播

正向传播(forward propagation)是指对神经网络沿着从输入层到输出层的顺序,依次计算并存储模型的中间变量(包括输出)。为简单起见,假设输入是一个特征为xRd的样本,且不考虑偏差项,那么中间变量

z=W(1)x,

其中W(1)Rh×d是隐藏层的权重参数。把中间变量zRh输入按元素运算的激活函数ϕ后,将得到向量长度为h的隐藏层变量

h=ϕ(z).

隐藏层变量h也是一个中间变量。假设输出层参数只有权重W(2)Rq×h,可以得到向量长度为q的输出层变量

o=W(2)h.

假设损失函数为,且样本标签为y,可以计算出单个数据样本的损失项

L=(o,y).

根据L2范数正则化的定义,给定超参数λ,正则化项即

s=λ2(W(1)F2+W(2)F2),

其中矩阵的Frobenius范数等价于将矩阵变平为向量后计算L2范数。最终,模型在给定的数据样本上带正则化的损失为

J=L+s.

我们将J称为有关给定数据样本的目标函数,并在以下的讨论中简称目标函数。

正向传播的计算图

我们通常绘制计算图(computational graph)来可视化运算符和变量在计算中的依赖关系。图3.6绘制了本节中样例模型正向传播的计算图,其中左下角是输入,右上角是输出。可以看到,图中箭头方向大多是向右和向上,其中方框代表变量,圆圈代表运算符,箭头表示从输入到输出之间的依赖关系。

反向传播

反向传播(back-propagation)指的是计算神经网络参数梯度的方法。总的来说,反向传播依据微积分中的链式法则,沿着从输出层到输入层的顺序,依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。对输入或输出X,Y,Z为任意形状张量的函数Y=f(X)Z=g(Y),通过链式法则,我们有

ZX=prod(ZY,YX),

其中prod运算符将根据两个输入的形状,在必要的操作(如转置和互换输入位置)后对两个输入做乘法。

回顾一下本节中样例模型,它的参数是W(1)W(2),因此反向传播的目标是计算J/W(1)J/W(2)。我们将应用链式法则依次计算各中间变量和参数的梯度,其计算次序与前向传播中相应中间变量的计算次序恰恰相反。首先,分别计算目标函数J=L+s有关损失项L和正则项s的梯度

JL=1,Js=1.

其次,依据链式法则计算目标函数有关输出层变量的梯度J/oRq

Jo=prod(JL,Lo)=Lo.

接下来,计算正则项有关两个参数的梯度:

sW(1)=λW(1),sW(2)=λW(2).

现在,我们可以计算最靠近输出层的模型参数的梯度J/W(2)Rq×h。依据链式法则,得到

JW(2)=prod(Jo,oW(2))+prod(Js,sW(2))=Joh+λW(2).

沿着输出层向隐藏层继续反向传播,隐藏层变量的梯度J/hRh可以这样计算:

Jh=prod(Jo,oh)=W(2)Jo.

由于激活函数ϕ是按元素运算的,中间变量z的梯度J/zRh的计算需要使用按元素乘法符

Jz=prod(Jh,hz)=Jhϕ(z).

最终,我们可以得到最靠近输入层的模型参数的梯度J/W(1)Rh×d。依据链式法则,得到

JW(1)=prod(Jz,zW(1))+prod(Js,sW(1))=Jzx+λW(1).


  • 正向传播沿着从输入层到输出层的顺序,依次计算并存储神经网络的中间变量。
  • 反向传播沿着从输出层到输入层的顺序,依次计算并存储神经网络的中间变量和参数的梯度。
  • 在训练深度学习模型时,正向传播和反向传播相互依赖。

参考文献

《动手学深度学习》

posted @   朝南烟  阅读(345)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 因为Apifox不支持离线,我果断选择了Apipost!
· 通过 API 将Deepseek响应流式内容输出到前端
body { color: #000; background-color: #e6e6e6; font-family: "Helvetica Neue",Helvetica,Verdana,Arial,sans-serif; font-size: 12px; min-height: 101%; background: url(https://images.cnblogs.com/cnblogs_com/caolanying/1841633/o_2009041…ly1geq8oc9owbj21hc0u0th5.jpg) fixed; } #home { margin: 0 auto; opacity: 0.8; width: 65%; min-width: 1080px; background-color: #fff; padding: 30px; margin-top: 50px; margin-bottom: 50px; box-shadow: 0 2px 6px rgba(100, 100, 100, 0.3); }
点击右上角即可分享
微信分享提示