VGG16学习笔记

VGG16

一、摘要

VGG-16主要采用增加卷积层的方法来加深网络，结果发现网络深度越深，网络学习的效果越好，分类能力越强。
该文表明：使用非常小的卷积滤波器（3×3）增加网络深度，当深度增加到16-19层时，可以实现对现有技术的显著改，并且对于其他图像识别的数据集也有很好的推广能力。

二、ConvNet的配置

输入图像：固定大小的224×224的RGB图像（预处理为对每个像素减去RGB均值）。
卷积层：使用3×3的卷积滤波器，stride = 1，padding为same，卷积后的图像尺寸不变（ConvNet Configuration C中另用conv1，其中1×1的卷积滤波器可以看作输入通道的线性变换）。
池化层：窗口为2×2，stride = 2（池化后图像的尺寸减半），它们跟随在一些卷积层之后，但并不是所有卷积层之后都有池化层。
全连接层：有三个全连接层FC，前两个有4096个通道，最后一个有1000个通道（每个类别占一个通道）。
softmax：实现多种类分类

所有隐藏层之后，都配有ReLU（Rectified linear uint-修正线性单元）

VGG-16中的16指的是在这个网络中包含16个卷积层和全连接层。此外还有VGG-19，由于VGG-16和VGG-19的表现几乎误无差，且VGG-16的参数较VGG-19少，所以大多数人依然选取VGG-16

三、说明

①、卷积层使用3×3的滤波器，很容易看到两层3×3的卷积层（两层之间无池化层）的感受野和一层5×5的卷积层相同，三层3×3的卷积层有7×7的有效感受野。这种替换是合理有效的。

每一层卷积层后会跟着非线性校正层ReLU。那么相较于单个非线性修正层，使用了三个的会使网络的决策更有判别性。
这种替换减少了参数。假设输入卷积层的通道数均为C₁，输出的特征图的通道数也为C₂（也就是卷积滤波器的数量）。那么3×3的情况共有3×（3×3×C₁×C₂）=27C₁C₂ ； 7×7的情况有（7×7×C₁×C₂）=49C₁C₂