Learning to Predict Context-adaptive Convolution for Semantic Segmentation

Learning to Predict Context-adaptive Convolution for Semantic Segmentation

2020-04-20 17:41:35

Paper: https://arxiv.org/pdf/2004.08222.pdf

Code:

1. Background and Motivation:

本文提出一种新的方法来学习背景信息，以辅助语义分割。不同于常规的 channel attention的思路，本文利用动态卷积核的做法来搞。但是不同于最基本的卷积核方法（即 Dynamic Filter Network），因为这种方法有太多 FC layer，从而导致参数量过大。而是通过一种 matrix multiplication 的方法来得到 kernel parameters。这种 kernel 不但完全编码了输入特征图的全局内容，而且通过 depth-wise convolution 在输入特征上，对每一个空间位置都产生了 context-aware spatially-varying feature weighting factors。此外，我们利用了一系列的空洞卷积，以及不同空洞率的方法，来有效地捕获多尺寸的信息。

本文的主要创新点如下：

1). 为了更好的利用全局场景信息来正则化语义分割，作者提出通过预测 spatially-varying feature weighting factors 的方法来有效地加权不同的特征。从而改善语义分割的性能。

2). 从输入图像的全局场景中，预测 context-adaptive convolutional kernels 来有效地训练神经网络。

3). 在三个数据集上取得了不错的效果。

2. The Proposed Approach:

特征的再加权已经被证明是非常有效地捕获长距离语义信息的方法，该方法利用 channel-wise 的加权因子来进行加权处理。虽然在不同任务中，都取得了提升，但是这种方法的一个问题是：在 2D feature map 上，所有的空间位置上 weight vector 是共享的。作者认为，对于语义分割来说，一个全局共享的加权向量并非是最优的选择，因为不同的空间位置基本上是属于不同类别物体的。所以，需要学习一种全局背景内容，但是不同位置上要有差异性，从而捕获到其特有的性质，才能改善语义分割的效果。作者认为从全局的角度来预测的 kernels 有更好的场景结构，从而更好的加权不同位置的特征。

为了达到上述目标，作者提出一种 Context-adaptive Convolution network (CaC) 来利用全局内容来学习 channel-wisely re-weight 。一系列的 context-adaptive convolutional kernels 从 CaC 模块中学习出来。跟之前 Dynamic filter 的做法不同，作者这里通过简单地 matrix multiplication 来进行有效的参数估计。更重要的是，CaC kernels 是从 2D feature map 上得到的。

2.1. Context-adaptive Convolution Kernel Prediction：

作者利用 pre-trained ResNet 作为骨干网络来提取图像的特征。为了构建空间变化的特征加权，有两种 naive 的方法：

1). 一种方法是直接预测 c 个 s*s*c 的卷积核，s*s 是卷积核。然后利用这 c 个卷积核进行卷积操作。但是这种方法需要利用 fc 层来预测 kernel weights，参数量很大；

2). 另外一种方式是：从 global average pooled features 上，利用 fc layers 来捕获 global context。特征加权图可以用预测的 kernels 在输入 feature maps 上进行卷积得到。但是这种方法丢失了所有的空间信息，所以效果不是很大。

为了解决上述挑战，本文提出一种 Context-adaptive Convolutional module 来预测一系列的 s*s*c 的 CaC convolutional kernels。输入的特征图 X 首先被转换为 2D query feature map Q，和 key feature map K，这里用的是两个不同的转换函数 Tk and Tq。这两个函数是通过独立的 1*1 卷积操作得到的。总的来说，key feature K 捕获了 c 个不同性质，query feature Q 捕获了全局空间特征。

为了达到这个目标，query feature 和 key feature 被首先 reshape 以得到 Q' 和 K'。对于 Q(:, i)' 第 i 个列的 query feature，可以用于捕获总的空间分布。这个结果可以用于衡量两个空间分布之间的差异性。如果我们重复该过程 c 次，我们可以得到一个 c-维的向量，可以刻画每一个特征通道的空间分布。由于我们有 $s^2$ 个 query vectors，我们可以捕获 $s^2$ 个特性：

然后，可以将上述 $\hat{D}$ reshape 为 s*s*c，然后用 BN 来得到预测的 D 作为 CaC kernels，并且可以用于和输入特征 X 进行卷积操作，以得到空间变化的特征加权因子。

2.2. Spatially-varying Weight Generation:

我们利用得到的 CaC kernel 来预测 spatial-varying weighting map 来对输入特征图进行加权处理。得到的 kernels D 可以用于进行 depth-wise convolution。所以，D 的每一个通道可以用于调节输入特征图的一个通道。为了新一步的改善预测 kernel D 的尺寸不变性，以及捕获多尺度内容。作者将原始预测的 kernels 记为 D1，并且预测了另外两个 CaC kernels，但是空洞率设置为 3 和 5，分别记为 D2 and D3。

如图 2 所示，对于预测的 CaC kernels 的每一个集合 D1, D2, D3，他们被用于在输入特征图 X 上分别执行 depth-wise convolution。每一个都会产生一个独立的权重图 W1, W2, W3，这些图可以融合得到 W：