《EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network》论文笔记
论文题目:《EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network》
论文作者:Hu Zhang, Keke Zu,Jian Lu et al.
论文发表年份:2021.7
模型简称:网络简称->EPSANet,注意力模块简称->PSA
发表会议:CVPR
Motivation
有研究证明,使用通道注意、空间注意或两者都使用可以显著提高性能。最常用的通道注意方法是Squeeze-and-Excitation (SE) 模块,它可以以相当低的成本显著提高性能。但SENet的缺点是它忽略了空间信息的重要性。因此,后续提出了Bottleneck Attention Module(BAM)和Convolutional Block Attention Module(CBAM),通过有效结合空间注意和通道注意来丰富注意力图。
然而,上述方法仍然存在两个重要和具有挑战性的问题。第一个是如何高效地捕捉和利用不同尺度特征图的空间信息,丰富特征空间。第二个是通道或空间注意只能有效捕获局部信息,而不能建立远程通道依赖。针对上述挑战,后续也提出了多个解决方案,如PyConv、Res2Net 、HS-ResNet等 。然而,这些方法都带来了较高的模型复杂度,使得网络计算负担沉重。基于以上观察,我们认为有必要开发一个低成本但有效的注意模块。本文提出了一种低成本、高性能的新型模块——金字塔挤压注意(PSA)。
Contribution
1.提出了一种新的高效金字塔分割注意(EPSA)块,该块能够有效地在更细粒度的水平上提取多尺度空间信息,并形成远程通道依赖关系。所提出的EPSA块非常灵活和可扩展,因此可以应用于各种各样的网络体系结构,用于计算机视觉的众多任务。
2.提出了一种名为EPSANet的新颖主干体系结构,它可以学习更丰富的多尺度特征表示,并自适应地重新校准跨维通道方面的注意权重。
3.大量实验表明,所提出的EPSANet可以在ImageNet和COCO数据集上实现跨图像分类、目标检测和实例分割的有前景的结果。
Method
1.PSA Module
PSA模块的实现主要分为四个步骤。首先,通过实现所提出的Squeeze and Concat(SPC)模块,获得通道维度上的多尺度特征图。其次,利用SEWeight模块提取不同尺度特征图的注意力,得到通道方向的注意力向量。第三,利用Softmax对通道维度的注意向量进行再校准,得到多尺度信道的再校准权重。第四,在重新校准的权重和对应的特征图上进行按元素乘积的操作。最后得到一个多尺度特征信息丰富的精细化特征图作为输出。
2.SPC Moudle
SPC采用多分支的方法提取输入特征图的空间信息,每个分支的输入通道维数为C。这样可以获得更丰富的输入张量的位置信息,并在多个尺度上并行处理。通过压缩输入张量的通道维数,可以有效地提取每个通道特征图上不同尺度的空间信息。最后,每个具有不同比例Fi的特征图具有共同的通道维C' = C/S, i = 0,1,···,S−1。注意C应该能被S整除。对于每个分支,它独立学习多尺度空间信息,并以局部方式建立跨通道交互。为了在不增加计算代价的情况下处理不同核尺度下的输入张量,引入了一种group convolution(<=>深度卷积)方法,并将其应用于卷积核。整个多尺度预处理的特征图可以通过如下的拼接方式得到:F = Cat([F0, F1,···,FS−1]) .
3.SEWeight Module
通道注意机制允许网络有选择地权衡每个渠道的重要性,从而产生更多的信息输出。通常,可以通过使用全局平均池化层来生成通道方面的统计信息,该池化层用于将全局空间信息嵌入到通道描述符中。该模块从预处理的多尺度特征图F中提取通道注意权重信息,得到不同尺度的注意权重向量:Zi = SEWeight(Fi) ,Zi ∈ RC'×1×1是注意力的权重。SEWeight模块用于从不同尺度的输入特征图中获取注意权重。通过这样做,PSA模块可以融合不同尺度的上下文信息,并为高级特征图产生更好的像素级注意力。为了实现注意信息的交互,在不破坏原有通道注意向量的情况下融合跨维向量。从而通过Concat的方式得到整个多尺度信道注意向量(Z0 Concat Z1 Concat Z2 · · · Concat Zs-1)。
经过SEWeight Moudle(就是SE Block)之后,使用Softmax获取重新校准的多尺度通道权重atti,其中包含空间上的所有位置信息和信道内的注意权重。通过这样做,实现了局部和全局通道注意力之间的交互。其次,对特征重校准的通道注意进行Concat,得到整个通道注意向量(att = att0 ⊕ att1 ⊕ · · · ⊕ attS−1)。然后,将重新校准的多尺度信道注意权重atti与对应尺度Fi的特征图相乘(按通道维度相乘)。
⊙表示表示按通道乘法,Yi是指得到的多尺度信道注意权重的特征图。最后再把所有结果Concat。
通过上述分析,我们提出的PSA模块可以将多尺度空间信息和跨通道注意整合到每个特征组的块中。因此,我们提出的PSA模块可以获得更好的本地和全局通道注意之间的信息交互。
4.EPSANet
通过用ResNet BottelNeck块中相应位置的PSA模块替换3x3卷积,进一步得到了一种新型块——高效金字塔分割注意(EPSA)块。使用PSA模块将多尺度空间信息和跨通道注意集成到EPSA块中。因此,EPSA块可以在更细粒度的水平上提取多尺度空间信息,并形成远程通道依赖关系。相应地,通过将所提出的EPSA块作为ResNet样式堆叠,开发了一种新型高效骨干网EPSANet。
利用COCO上的掩码R-CNN对不同注意网络的实例分割结果:
Conclusion
本文提出了一种高效、轻量级的即插即用注意模块——金字塔分割注意(PSA)。提出的PSA模块可以充分提取通道注意向量中的多尺度空间信息和跨维度的重要特征。提出的高效金字塔分割注意(EPSA)块可以在更细粒度的水平上提高多尺度表示能力,并形成远程信道依赖性。提出的EPSANet可以有效地集成多尺度的上下文特征和图像级的分类信息。通过大量的定性和定量实验,验证了与其他传统的通道注意方法相比,所提出的EPSANet在图像分类、目标检测和实例分割方面具有最先进的性能。在未来的工作中,我们将研究将PSA模块添加到更轻量级的CNN体系结构中的效果。