Deep Residual Learning

这是微软方面的最新研究成果，在第六届ImageNet年度图像识别测试中，微软研究院的计算机图像识别系统在几个类别的测试中获得第一名。

本文是解决超深度CNN网络训练问题，152层及尝试了1000层。

随着CNN网络的发展，尤其的VGG网络的提出，大家发现网络的层数是一个关键因素，貌似越深的网络效果越好。但是随着网络层数的增加，问题也随之而来。

首先一个问题是 vanishing/exploding gradients，即梯度的消失或发散。这就导致训练难以收敛。但是随着 normalized initialization [23, 9, 37, 13] and intermediate normalization layers[16]的提出，解决了这个问题。

当收敛问题解决后，又一个问题暴露出来：随着网络深度的增加，系统精度得到饱和之后，迅速的下滑。让人意外的是这个性能下降不是过拟合导致的。如文献 [11, 42]指出，对一个合适深度的模型加入额外的层数导致训练误差变大。如下图所示：

上图中两条曲线分别为20层和56层的“plain”网络在训练集和测试集上的错误率，这里的“plain”是指一般的无环的“直流”卷积网络。按照以往的经验理论，网络越深应该有更好的分类效果，加大网络的深度是一种很有效的提高准确率的方法。但从上图中的曲线很明显是与这一结论相矛盾的，20层的网络无论是在训练集还是测试集上的错误率都比56层的要低。为了说明出现这一现象并不是因为梯度弥散或是膨胀导致的，所以在每一个卷积之后，ReLU之前会使用bn层。对于深层的网络，有这样一个现象，算法开始是收敛的，但随着网络加深，准确略逐渐的下降，但并没有出现过拟合。所以说明出现这样的现象是因为优化出现问题。
这篇文章提出一种deep residual learning framework的结构，解决对于很深的网络的优化问题。这种结构主要受启发于LSTM和HighWay。这种结构有两个优点（1）比较容易优化（2）网络层数加深可以有更高的准确率。
2 Related Work
Residual Representations
以前关于残差表示的文献表明，问题的重新表示或预处理会简化问题的优化。 These methods suggest that a good reformulation or preconditioning can simplify the optimization

Shortcut Connections
CNN网络以前对shortcut connections 也有所应用。

3 Deep Residual Learning
3.1. Residual Learning
这里我们首先求取残差映射 F(x):= H(x)-x，那么原先的映射就是 F(x)+x。尽管这两个映射应该都可以近似理论真值映射 the desired functions (as hypothesized)，但是它俩的学习难度是不一样的。

这种改写启发于图1中性能退化问题违反直觉的现象。正如前言所说，如果增加的层数可以构建为一个 identity mappings，那么增加层数后的网络训练误差应该不会增加，与没增加之前相比较。性能退化问题暗示多个非线性网络层用于近似identity mappings 可能有困难。使用残差学习改写问题之后，如果identity mappings 是最优的，那么优化问题变得很简单，直接将多层非线性网络参数趋0。

实际中，identity mappings 不太可能是最优的，但是上述改写问题可能对问题提供有效的预先处理 (provide reasonable preconditioning)。如果最优函数接近identity mappings，那么优化将会变得容易些。实验证明该思路是对的。
3.2. Identity Mapping by Shortcuts
图2为一个模块。A building block

公式定义如下：

这里假定输入输出维数一致，如果不一样，可以通过 linear projection 转成一样的。这种short connection 实际上是卷积之后的output与input的逐点加和，这句就需要二者具有相同的维度，但是由于采样的原因使得很多时候并不能满足，通常有三种方法可以解决上述问题。

3.3. Network Architectures

Plain Network 主要是受 VGG 网络启发，主要采用3*3滤波器，遵循两个设计原则：1）对于相同输出特征图尺寸，卷积层有相同个数的滤波器，2）如果特征图尺寸缩小一半，滤波器个数加倍以保持每个层的计算复杂度。通过步长为2的卷积来进行降采样。一共34个权重层。
需要指出，我们这个网络与VGG相比，滤波器要少，复杂度要小。

Residual Network 主要是在上述的 plain network上加入 shortcut connections

3.4. Implementation
针对 ImageNet网络的实现，我们遵循【21,41】的实践，图像以较小的边缩放至[256,480]，这样便于 scale augmentation，然后从中随机裁出 224*224，采用【21,16】文献的方法。

参考：http://blog.csdn.net/cv_family_z/article/details/50328175
http://blog.csdn.net/u014114990/article/details/50505331
http://m.blog.csdn.net/article/details?id=60468237

posted on 2017-10-24 23:11 MissSimple 阅读(299) 评论(0) 收藏举报

刷新页面返回顶部

Deep Residual Learning

导航

公告