Res2net：多尺度骨干网络结构

《Res2Net: A New Multi-scale Backbone Architecture》

来自：南开大学程明明组

论文：https://arxiv.org/abs/1904.01169

>多尺度的信息

首先一张图片里物体可能有不同的大小，例如沙发和杯子就是不同大小的，第二，必要的上下文信息可能所占的面积要大于物体本身。例如，我们需要根据大桌子的信息来更好的确定桌上的是个杯子或是笔筒。第三点，对细精度分类和语义分割，理解局部，观察不同尺度下的信息是有必要的。

Alexnet按顺序堆叠卷积并得到比传统方法取得显著的效果。然而，由于网络深度和卷积核大小的限制，alexnet只有很小的感受野。

VGGnet增加了网络深度并使用更小的卷积核。更深的网络结构可以扩大感受野，从更大的尺度提取特征。通过堆叠更多大卷积核的层，是一种更容易扩大感受野的方法。VGG比Alexnet有更少的参数更强的表达能力。但是都是线性堆叠卷积，只能表达不灵活的感受野。

Googlenet采用并行的不同尺度的卷积来增强多尺度的表达能力。但是有受限于计算资源。因此多尺度表征的策略任然没能更大范围的感受野。

Resnet引入短连接，因此在有更深的网络结构的同时缓解了梯度消失的问题。特征提取的过程，短连接让不同的不同卷积相结合。类似的，densenet里的密集连接也使得网络能够处理一个很大范围的尺度。

残差块里头又有残差连接，所以取名res2net

>Res2Net的bottleneck模块

yi表示Ki()的输出。子特征xi和Ki-1()的输出加在一起，然后送入Ki()。所有的分块拼接后在送入1*1的卷积。分块在拼接的策略能增强卷积更有效处理特征。为了在增加s的同时减少参数，我们不对x1进行卷积。更大的s一般对应更强的多尺度的表达能力。（这样子y1,y2,y3,y4就拥有不同尺度的特征）

>Res2Net + 其他模块