机器学习（ML）十三之批量归一化、RESNET、Densenet

批量归一化

批量归一化（batch normalization）层，它能让较深的神经网络的训练变得更加容易。对图像处理的输入数据做了标准化处理：处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据使各个特征的分布相近：这往往更容易训练出有效的模型。

通常来说，数据标准化预处理对于浅层模型就足够有效了。随着模型训练的进行，当每层中参数更新时，靠近输出层的输出较难出现剧烈变化。但对深层神经网络来说，即使输入数据已做标准化，训练中模型参数的更新依然很容易造成靠近输出层输出的剧烈变化。这种计算数值的不稳定性通常令我们难以训练出有效的深度模型。

批量归一化的提出正是为了应对深度模型训练的挑战。在模型训练时，批量归一化利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。批量归一化和下一节将要介绍的残差网络为训练和设计深度模型提供了两类重要思路。

批量归一化层

对全连接层和卷积层做批量归一化的方法稍有不同。

对全连接层做批量归一化

对卷积层做批量归一化

对卷积层来说，批量归一化发生在卷积计算之后、应用激活函数之前。如果卷积计算输出多个通道，我们需要对这些通道的输出分别做批量归一化，且每个通道都拥有独立的拉伸和偏移参数，并均为标量。设小批量中有 $m$ 需要对该通道中 $m \times p \times q$

预测时的批量归一化

使用批量归一化训练时，我们可以将批量大小设得大一点，从而使批量内样本的均值和方差的计算都较为准确。将训练好的模型用于预测时，我们希望模型对于任意输入都有确定的输出。因此，单个样本的输出不应取决于批量归一化所需要的随机小批量中的均值和方差。一种常用的方法是通过移动平均估算整个训练数据集的样本均值和方差，并在预测时使用它们得到确定的输出。可见，和丢弃层一样，批量归一化层在训练模式和预测模式下的计算结果也是不一样的。

在模型训练时，批量归一化利用小批量上的均值和标准差，不断调整神经网络的中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。
对全连接层和卷积层做批量归一化的方法稍有不同。
批量归一化层和丢弃层一样，在训练模式和预测模式的计算结果是不一样的。
Gluon提供的BatchNorm类使用起来简单、方便。

批量归一化代码实现

 1 import d2lzh as d2l
 2 from mxnet import autograd, gluon, init, nd
 3 from mxnet.gluon import nn
 4 
 5 net = nn.Sequential()
 6 net.add(nn.Conv2D(6, kernel_size=5),
 7         nn.BatchNorm(),
 8         nn.Activation('sigmoid'),
 9         nn.MaxPool2D(pool_size=2, strides=2),
10         nn.Conv2D(16, kernel_size=5),
11         nn.BatchNorm(),
12         nn.Activation('sigmoid'),
13         nn.MaxPool2D(pool_size=2, strides=2),
14         nn.Dense(120),
15         nn.BatchNorm(),
16         nn.Activation('sigmoid'),
17         nn.Dense(84),
18         nn.BatchNorm(),
19         nn.Activation('sigmoid'),
20         nn.Dense(10))
21 lr, num_epochs, batch_size, ctx = 1.0, 5, 256, d2l.try_gpu()
22 
23 net.initialize(ctx=ctx, init=init.Xavier())
24 trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr})
25 d2l.train_ch5(net, train_iter, test_iter, batch_size, trainer, ctx,
26               num_epochs)

View Code

残差网络（ResNet）

先思考一个问题：对神经网络模型添加新的层，充分训练后的模型是否只可能更有效地降低训练误差？理论上，原模型解的空间只是新模型解的空间的子空间。也就是说，如果我们能将新添加的层训练成恒等映射 $f (x) = x$

残差块

聚焦于神经网络局部。下图所示，设输入为 $x$ 残差映射在实际中往往更容易优化。以本节开头提到的恒等映射作为我们希望学出的理想映射 $f (x)$

ResNet沿用了VGG全 $3 \times 3$

ResNet模型

ResNet的前两层跟之前介绍的GoogLeNet中的一样：在输出通道数为64、步幅为2的 $7 \times 7$

GoogLeNet在后面接了4个由Inception块组成的模块。ResNet则使用4个由残差块组成的模块，每个模块使用若干个同样输出通道数的残差块。第一个模块的通道数同输入通道数一致。由于之前已经使用了步幅为2的最大池化层，所以无须减小高和宽。之后的每个模块在第一个残差块里将上一个模块的通道数翻倍，并将高和宽减半。接着我们为ResNet加入所有残差块。这里每个模块使用两个残差块。最后，与GoogLeNet一样，加入全局平均池化层后接上全连接层输出。每个模块里有4个卷积层（不计算 $1 \times 1$

残差块通过跨层的数据通道从而能够训练出有效的深度神经网络。
ResNet深刻影响了后来的深度神经网络的设计。

稠密连接网络（DenseNet）

ResNet中的跨层连接设计引申出了数个后续工作。本节我们介绍其中的一个：稠密连接网络（DenseNet）。它与ResNet的主要区别如下图所示。

上图将部分前后相邻的运算抽象为模块

DenseNet的主要构建模块是稠密块（dense block）和过渡层（transition layer）。前者定义了输入和输出是如何连结的，后者则用来控制通道数，使之不过大。

稠密块

enseNet使用了ResNet改良版的“批量归一化、激活和卷积”结构。稠密块由多个conv_block组成，每块使用相同的输出通道数。但在前向计算时，我们将每块的输入和输出在通道维上连结。

过渡层

由于每个稠密块都会带来通道数的增加，使用过多则会带来过于复杂的模型。过渡层用来控制模型复杂度。它通过

DenseNet模型

DenseNet首先使用同ResNet一样的单卷积层和最大池化层。

类似于ResNet接下来使用的4个残差块，DenseNet使用的是4个稠密块。同ResNet一样，我们可以设置每个稠密块使用多少个卷积层。这里我们设成4，从而与上一节的ResNet-18保持一致。稠密块里的卷积层通道数（即增长率）设为32，所以每个稠密块将增加128个通道。ResNet里通过步幅为2的残差块在每个模块之间减小高和宽。这里我们则使用过渡层来减半高和宽，并减半通道数。同ResNet一样，最后接上全局池化层和全连接层来输出。

在跨层连接上，不同于ResNet中将输入与输出相加，DenseNet在通道维上连结输入与输出。
DenseNet的主要构建模块是稠密块和过渡层。

posted @ 2020-02-18 22:27 Jaww 阅读(1848) 评论(0) 收藏举报

刷新页面返回顶部