深度学习经典网络总结

深度学习经典网络总结

最近看的4篇经典深度学习的paper,总结一下。

一、AlexNet

(一)成绩

多伦多大学alex团队ILSVRC-2012冠军网络

(二)网络结构

5层卷积 + 3层全连接

 

 

(三)网络特色

1、局部响应归一化(LRN:Local Response Normalization)

当前通道当前点的像素值/(相邻 通道数/2 的不同特征图上对应的同一点,像素值的平方和)

当该通道和邻近通道像素绝对值都比较大的时候,归一化后值变得更小。

采用这种方法,在ImageNet数据集1000分类的测试上,top-1错误率降低了 1.4%,top-5错误率降低了 1.2%(其他网络上发现这种方法好像没多少用处)

2. 重叠池化

(1)常规池化

 

 

(2)重叠池化

相邻池化窗口之间会有重叠区域

 

 

练过程中通常观察采用重叠池化的模型,发现它更难过拟合。

3.减少过拟合

(1)数据增强

在GPU训练模型时,用cpu 随机裁剪 + 翻转 + 旋转原始图像 + RGB替换,产生新的数据,GPU + CPU并行工作,没有占用额外的时间。

(2)采用dropout

随机忽略一部分神经元,(以0.5的概率对每个隐层神经元的输出设为0。那些“失活的”的神经元不再进行前向传播并且不参与反向传播)

思想是利用集成法,计算多个模型,综合考虑结果(MAX,MEAN,etc)。只不过实现方式在一个模型内部实现,而不是真的训练了多个模型。

 

二、VGG

Visual Geometry Group牛津大学计算机视觉组

(一)成绩

ILSVRC-2014亚军

1.单网络分类精度方面最优。

 

 

2.多网络( 融合了VGG16和VGG19两个模型,相比于融合了7个模型的googlenet仅仅落后0.1%)

 

 

(二)网络结构

1.网络配置

评估有6个网络,层数依次加深

 

2.网络示例图

 

 

(三)网络特色

1.采用更小的卷积核,网络层数更深

VGG相比于AlexNet的改动在于,VGG采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核(11x11,7x7,5x5)

VGG发现,同样感受野的情况下,小的conv filter优于具有大filter的网络,在网络B中进行实测,2个3*3的conv与 1个5 * 5的conv具有相同的感受野。

 

但是前者性能高于后者7%。堆积的小卷积核优于采用大的卷积核, 因为每过1个小的卷积核,后面接着一个RELU非线性激活层。这可以学习到更复杂的模式。 而且代价还比较小(参数更少5x5 > 2 * 3x3

2.采用Network In Network1*1结构

传统网络一般是由:线性卷积池化层+全连接层堆叠起来。卷积层通过线性滤波器进行线性卷积运算,然后在接个非线性激活函数,传给下一层

NIN在原来的卷积层后面加一个1*1的卷积层,而不改变输出的size。每一个1*1卷积层后面都会跟上ReLU。所以,相当于网络变深了,可以学习到更复杂的模式.

 

 

全连接层相当于1*1卷积层

 

 

3. ps

(1)VGGNet的结构简洁,整个网络都使用了同样大小的卷积核尺寸(3x3)和最大池化尺寸(2x2)。验证了通过不断加深网络结构可以提升性能。

(2)A-LRN验证了局部均一化作用不大

 

 

A与A_LRN网络测试结果。

 

 

(3)网络参数过多,计算量大(并不是小卷积核的锅,3个全连接层占据了80%的参数)

三、GoogleNet

(一)网络成绩

ILSVRC-2014冠军

 

 

(二)网络结构

 

 

 

(三)网络特色

1. inception结构

采用不同大小的卷积核,意味着不同大小的感受野,将不同尺度特征的融合可以取得更好的学习效果。

 

 

2.shotcut直连

改善了梯度消失问题。

 

posted @ 2019-05-02 15:06  江绍印  阅读(5553)  评论(1编辑  收藏  举报