DenseASPP论文总结
一、相关工作
1、FCN
FCN开创了语义分割任务的先河,高级语义信息在分割网络中起着至关重要的作用。为了提取高级信息,FCN使用多个池化层来增加输出神经元的接受域大小。然而,增加池化层的数量会导致feature map的大小减小,这对将分割输出上采样回全分辨率造成了严重的挑战。为了解决较大的特征图分辨率和较大的接收域之间的矛盾,提出了一种新的空洞卷积算法。
2、空洞卷积(Atrous convolution )
与传统的卷积算子相比,atrous卷积能够在不增加核参数数目的情况下获得更大的接受域大小。由atrous卷积产生的feature map可以与输入的大小相同,但是每个输出神经元拥有更大的接受域,因此可以编码更高层次的语义。虽然atrous convolution解决了feature map分辨率与接受域大小之间的矛盾,atrouss - convolution输出的 feature map中的所有神经元都具有相同的接受域大小,这意味着语义掩码的生成过程只利用了单一尺度上的特征。可是,多尺度信息将有助于解决模糊情况,并产生更稳健的分类结果。
3、ASPP
为此,ASPP[2,3]提出将不同扩张率下的atrous convolution生成的feature map串联起来,使得输出feature map中的神经元包含多个接受域大小,对多尺度信息进行编码,最终提高性能。
然而,随着膨胀率的增加(如d > 24), atrous convolution变得越来越无效,逐渐失去了建模能力。因此,设计一个能够编码多尺度信息,同时又能获得足够大的接收域的网络结构是非常重要的。
二、DenseASPP
DenseASPP由一个基础网络和一系列层叠的卷积层组成。提出的DenseASPP结合了并行和级联使用空洞卷积层的优点,在更大的范围内产生了更多的尺度特征。通过一系列的特征连接,每个中间特征图上的神经元从多个尺度对语义信息进行编码,不同的中间特征图从不同的尺度范围对多尺度信息进行编码。通过一系列的空洞卷积,较晚层次的神经元获得越来越大的感受野,而不会出现ASPP的核退化问题。因此,DenseASPP最终的输出特征图不仅涵盖了大范围的语义信息,而且以非常密集的方式覆盖了该范围。
1、贡献
1) DenseASPP能够生成覆盖非常大范围的特性(就接受域大小而言)。
2) DenseASPP生成的特征能够非常密集地覆盖上述尺度范围。
2、工作模式
空洞卷积层以级联方式组织,每一层的膨胀率逐层增加。膨胀率小的层在下部,膨胀率大的层在上部。将每一层的输出与输入的feature map和较低层的所有输出连接起来,并将这些连接起来的feature map送入下一层。DenseASPP的最终输出是由多空洞率、多尺度的卷积生成的特征图。提出的结构可以同时组成一个更密集和更大的特征金字塔,只需要几个空洞卷积层。与原始的ASPP[3]相比,DenseASPP将所有空洞卷积层堆叠在一起,并用紧密的连接将它们连接起来。这种变化主要给我们带来两个好处:更密集的特征金字塔和更大的接受域。
3、优点
3.1密度特征金字塔
“密度”一词不仅表示特征金字塔的尺度多样性更好,还表示卷积涉及的像素比ASPP中更多。
密集抽样规模:DenseASPP是一个有效的架构,可以对不同规模的输入进行采样。DenseASPP的一个关键设计是使用紧密的连接来实现不同膨胀率的不同层次的集成
对于扩张速率为d、核大小为K的空洞卷积层,其等效接受域大小为:
R = (d - 1) × (K - 1) + K
以d = 3的3×3卷积层为例,对应的接受域大小为7。
将两个卷积层叠加在一起可以得到更大的接受域。假设我们分别有两个滤波尺寸为K1和K2的卷积层,新的接受域为:
K = K1 + K2 - 1
例如,内核大小为7的卷积层与内核大小为13的卷积层叠加,接收域大小为19。
DenseASPP由包含扩张率为3,6,12,18的扩张卷积,每组数字的表示扩张率的组合,长度表示等效的卷积核大小,k表示实际的接收野,如下所示:
密集的像素采样:与ASPP相比,DenseASPP在特征金字塔的计算中涉及到更多的像素。ASPP采用4个膨胀率分别为6、12、18、24的卷积层构成特征金字塔。与相同接收域的传统卷积层相比,大扩张率的卷积层的像素采样率非常稀疏。在DenseASPP中,膨胀率逐层增加,因此,上层的卷积可以利用下层的特征,使像素采样更加密集。
3.2更大的接受域
DenseASPP带来的另一个好处是更大的接受域。Atrous convolutional layers在传统的ASPP中是并行工作的,而四个分支在前馈过程中是不共享任何信息的。与之相反,DenseASPP中的空洞卷积层通过跳过连接来共享信息。小扩展率和大扩展率的层之间是相互依赖的,其中前馈过程不仅会构成一个更密集的特征金字塔,而且会产生一个更大的过滤器来感知更大的上下文。
设Rmax为特征金字塔的最大接受域,函数RK,d为核大小为K、扩张率为d的卷积层的接受域,则ASPP的最大接受域为(6,12,18,
24)是:
Rmax = max [R3,6, R3,12, R3,18, R3,24]
= R3,24
= 51
而DenseASPP(6、12、18、24)的最大接受域是:
Rmax = R3,6 + R3,12 + R3,18 + R3,24 - 3
= 122
如此大的接受域可以为高分辨率图像中的大对象提供全局信息。例如,Cityscapes[4]的分辨率为2048×1024,而我们的分割网络最后的feature map为256×128。
DenseASPP(6、12、18、24)覆盖了122特征图,DenseASPP(3、6、12、18、24)覆盖了128的特征图。