[经典论文重读]Inception V2/V3

1. 前言

Inception V2/V3由googLeNet的一作在《Rethinking the Inception Architecture for Computer Vision》中提出。本论文在GoogLeNet和BN-Inception的基础上，对Inception模块的结构、性能、参数量和计算效率进行了重新思考和重新设计。提出了Inception V2和Inception V3模型，取得了3.5%左右的Top-5错误率。

Inception V3具有强大的图像特征抽取和分类性能，是常用的迁移学习主干网络基模型。

论文首先提出了设计CNN模块的四大基本原则：

避免过度降维和特征Bottleneck瓶颈收缩（避免过度的1 x 1卷积，特别是在网络浅层）。
独立的特征越多收敛越快（尽可能在分类层之前增加通道数）。
大卷积核卷积之前可用1x1卷积降维（3x3或5x5卷积之前可先用1x1卷积降维，可保留相邻单元的强相关性）。
要均衡网络的宽度和深度。

在四大基本原则的基础上，对Inception模块进行了改进。

首先将5x5卷积分解为2个3x3卷积，可以在保证感受野大小不变的情况下减少参数量和计算量，同时引入额外的非线性。

然后将3x3卷积分解为1x3和3x1两个不对称卷积（空间可分离卷积）。

对GoogLeNet的辅助分类器的作用进行了重新思考。提出辅助分类器并不能帮助模型更快收敛和更快的特征演化，但是增加了BN层和Dropout层的辅助分类器可以起到正则化作用。

提出了更高效的下采样模块，使用Inception模块本身进行下采样，在节约计算量的同时防止特征瓶颈和信息丢失。

使用以上改进，构建了Inception V2模型，在此基础上，进一步引入优化器改进、Label Smoothing标签平滑正则化等技巧，提出Inception V3模型。

论文还包括对小分辨率图像分类的性能研究。

重点可以概括为四、三、二，提出四个基本原则，实践三个改进模块，提出两个模型。

2. 四大基本原则

作者们在几种卷积神经网络架构上进行了大量的实验，提出了几个基本原则，当然这些还需要更多的实验和证据进行证明。（google团队的论文风格，通过实验，提出理论基础）

原则一：避免过度降维或者收缩特征bottleneck，特别是在网络浅层，feature map的长宽大小应该随网络加深缓缓减小。
原则二：特征越多，收敛越快。相互独立的特征越多，输入的信息分解得越彻底，也印证了赫布原理的fire together, wire together。
原则三：在空间聚合之前，也就是使用类似3*3,5*5这种大卷积核之前，可以使用1*1卷积降维，这个时候信息不会损失（或者损失很少）基于一个假设，如果输出用于空间聚合上下文，则相邻单元之间的强相关性导致在降维过程中的信息损失要少得多。
原则四：均衡网络的宽度和深度，两者同时提升，既可提高性能，又能提高效率。

上述的一般性准则从理论上是可行的，但是也不是开箱即用，实际上也需要更多的实验去验证。