Paper | Squeeze-and-Excitation Networks

Squeeze-and-Excitation Networks

本文的贡献点在于：通过显式建模特征注意力机制，达到了很好的效果。这是以往被默认隐式学习的操作。并且注意，此时建模出来的注意力是非线性分布的。

最重要的是，SE block非常轻巧，而且有比赛冠军的实验保证。

神经网络对你说：你让我学得简单又轻松，我就会反馈给你更好的结果哦。

现有的卷积操作：在局部感受野内，提取空域（spatial-wise）和通道域（channel-wise）信息。

这篇文章希望提高网络的表示能力，提出了一个称为“挤压-激活（Squeeze-and-Excitation, SE）”块，能够通过显式建模通道依赖性，重新校准通道域特征。

【我猜是一种通道注意力机制】

该SENet在2017年ILSVRC分类比赛上获得第一名。

对于深度学习优化，有两种科研方向：（1）改进推理结构；（2）改进表示结构和方法。本文是后者。

SE block

一个SE block如图。对于任意变换\(F_{tr}: X \to U\)（例如一组或多组卷积），我们都可以采用后续操作，来重新校准（recalibrate）通道：

整个SENet就是多个SE block的堆叠。

这种SE block可以作为插件，在任意深度嵌入（drop-int）。但作者发现，在不同层嵌入的作用也是不同的：

因此，如果在整个网络中堆叠使用，效果更佳哦。

挤压：在某通道上，取该通道的全局均值。简单有效。
激活：两层FC，中间有一次ReLU非线性激活，最后是逻辑回归。在第一次FC，\(C\)层通道减少至\(C/r\)；第二次FC，通道数又恢复至\(C\)。这相当于一个bottleneck，目的是为了降低复杂度。\(r\)的选取见第四节，取16。

最终，我们将SE block嵌入Inception和ResNet试试：

在选择激活方法时，我们不希望让输出变成one-hot向量，即不希望通道权重是互斥的。

作者不仅考察了装载SE block前后的精度，还考察了前后计算效率，如表：

可见，在err下降的同时，GFLOPs上升微乎其微。

不仅如此，SE block还能让MobileNet和ShuffleNet显著改善：

收敛过程也更快：

posted @ 2019-10-23 15:42 RyanXing 阅读(378) 评论(0) 编辑收藏举报

刷新页面返回顶部