DAY 03

论文：2021_TIP_Spatial_Information_Guided_Convolution_for_Real-Time_RGBD_Semantic_Segmentation

主要工作：生成适应空间信息的不同采样分布的卷积核，增强网络的空间适应性和感受野调节能力。在RGBD背景下，利用自适应卷积核有效地涉及三维空间信息。

①根据空间信息生成偏移量

②利用给定偏移量对应的空间信息生成新的空间自适应权值。

S-Conv需要两个输入：与传统卷积相同的Featue Map X；空间信息

直接翻译一遍：

ABSTRACT：

　　众所周知，三维空间信息有利于语义分割任务。大多数现有的方法把三维空间数据作为一个额外的输入，导致了一个双流的分割网络，分别处理RGB和3D空间信息。这种解决方案大大增加了推理的时间，并严重限制了其实时应用的范围。为了解决这个问题，我们提出了空间信息引导的卷积（S-Conv），它允许有效的RGB特征和三维空间信息整合。S-Conv能够在三维空间信息的引导下，推断出卷积核的采样偏移量，帮助卷积层调整接受域并适应几何变换。S-Conv还通过生成空间自适应的卷积权值，将几何信息纳入到特征学习过程中。感知几何图形的能力在很大程度上得到了增强，而不会对参数和计算量产生很大影响。在S-Conv的基础上，我们进一步设计了一个语义分割网络，称为空间信息引导卷积网络（SGNet），在NYUDv2和SUNRGBD数据集上实现实时推理和最先进的性能。

Ⅰ INTRODUCTION

　　随着三维传感技术的发展，带有空间信息（深度、三维坐标）的RGBD数据很容易获得。因此，用于高层次场景理解的RGBD语义分割变得极为重要，使自动驾驶[1]、SLAM[2]和机器人技术等广泛的应用受益。由于卷积神经网络（CNN）和额外的空间信息的有效性，最近的进展表明室内场景分割任务的性能有所提高[3]-[5]。然而，由于环境的复杂性和考虑空间数据的额外努力，特别是对于需要实时推理的应用，仍然存在着巨大的挑战。

　　一种常见的方法是将三维空间信息作为一个额外的输入，然后结合RGB图像的特征来融合多模态信息[6]-[10]（见图1(a)）。该方法以显著增加参数数和计算时间为代价，取得了良好的效果，不适用于实时任务。同时，一些作品[3]、[6]、[9]、[11]、[12]将原始空间信息编码为由水平视差、地面高度和范数角组成的三个通道（HHA）。然而，从原始数据到HHA的转换也占用[9]了时间。

图1.不同的多模态融合方法的网络架构

(a)传统的双流结构[6]-[10]；(b)提议的SGNet。

可以看出，由于(a)中处理空间信息，该方法大大增加了参数数和推理时间，因此不太适合实时应用。

我们用(b)中的S-Conv代替卷积，其中卷积的核分布和权值自适应于空间信息。

S-Conv在很少增加参数和计算的情况下，大大提高了网络的空间感知，从而可以有效地利用空间信息。最好以彩色方式观看。

　　值得注意的是，室内场景比室外场景具有更为复杂的空间关系。这就需要网络具有更强的自适应能力来处理几何变换。然而，由于卷积核的固定结构，上述方法中的二维卷积不能很好地适应空间转换，并固有地调整感受野，限制了语义分割的准确性。虽然可以通过修改池化操作和先验数据增强来缓解[13], [14]，但仍然希望有一个更好的空间自适应采样机制来进行卷积。

　　此外，室内场景中物体的颜色和纹理并不总是具有代表性[15]。相反，几何结构往往在语义分割中起着重要作用。例如，为了识别冰箱和墙壁，由于纹理相似，几何结构是主要线索。然而，这种空间信息被RGB数据的二维卷积所忽略。深度感知卷积[16]被提出来解决这个问题。它迫使与内核中心有相似深度的像素比其他像素有更高的权重。然而，这个先验是人工的，可能会导致次优的结果。

　　可以看出，二维卷积的固定结构和变化的空间变换之间存在着矛盾，同时也存在着分别处理RGB和空间数据的效率瓶颈。为了克服上述限制我们提出了一种新的操作，称为空间信息引导的卷积(S-Conv)，它可以根据空间信息自适应地变化（见图1(b)）。具体来说，该操作可以生成适应空间信息的不同采样分布的卷积核，增强了网络的空间适应性和感受野调节。此外，S-Conv建立了卷积权值与其对应像素的潜在空间关系之间的联系，将几何信息整合到卷积权值中，以更好地捕捉场景的空间结构。由于S-Conv中空间信息的输入，可以直接分析物体的尺度和空间变换，产生空间自适应偏移和权重。

　　本文所提出的S-Conv轻量且灵活，仅需少量额外的参数和计算成本就能实现了显著的性能改进，使其适用于实时应用。这是一种新的、有效的处理多模态融合任务的方法。具体地说，与其他双流方法相比，我们利用空间信息来指导卷积过程，以实现多模态融合的目的。其性能优于其他依赖于双流网络的方法，与双流方法相比，大大减少了参数量和计算量，实现了实时应用。我们进行了大量的实验来证明S-Conv的有效性和效率。我们首先设计了消融实验，并将S-Conv与双流方法、可变形卷积[13]、[14]和深度感知卷积[16]进行了比较，展示了S-Conv的优点。我们还通过测试S-Conv对深度、HHA和三维坐标的影响，验证了S-Conv对空间转换的适用性。证明了空间信息比可变形卷积[13]，[14]所使用的RGB特征更适合生成偏移量。最后，由于对空间转换的适应性和感知空间结构的有效性，我们提出的空间信息引导的卷积网络（SGNet）使用了S-Conv，在NYUDv2[17]和SUNRGBD[18][19]数据集上取得了高质量的实时推理结果。

　　我们强调我们的贡献如下：

　　　　•我们提出了一种新的S-Conv算子，它可以自适应地调整接受域，同时有效地适应空间转换，并能够以低成本感知复杂的几何模式。

　　　　•在S-Conv的基础上，我们提出了一个新的SGNet。在NYUDv2[17]和SUNRGBD[18], [19]数据集上实现了具有竞争力的RGBD实时分割。

Ⅱ RELATED WORK

　　A. 语义分割

　　语义分割的最新进展在很大程度上得益于卷积神经网络(CNN)[20], [21]的发展。FCN[3]是利用CNN进行语义分割的先驱。它带来了令人信服的结果,并作为许多任务的基本框架。随着该领域的研究努力，最近的方法可以根据网络的不同分为两类架构，包括基于空洞卷积的方法[4][22]-[24]，以及基于编码器-解码器的方法[25]-[30]。

　　1）空洞卷积：标准方法依赖于步幅卷积或池化来减少CNN主干的输出步幅，并实现一个大的感受野。然而，所得到的特征图的分辨率降低了[4]，并且丢失了许多细节。一种方法利用空洞卷积来增强感受野，同时保持特征图[4]，[22]，[26]，[31]的分辨率来缓解冲突。我们在提出的SGNet中使用了基于空洞卷积的主干。

　　2)编码器-解码器架构：另一种方法利用编码器-解码器结构[25]-[30]，[32]，通过学习解码器来逐步恢复预测细节。DeconvNet[28]采用一系列反卷积层来产生高分辨率预测。SegNet [27]通过在编码器中使用池化索引来指导解码器中的恢复过程，从而获得了更好的结果。RefineNet [25]融合了编码器中的低级特征和解码器来细化预测。[29]，[30]提出了一种门控和方案，该方案可以在编译码器体系结构中控制不同规模的信息流。虽然该方法可以获得更精确的结果，但它需要更长的推理时间。

　　B. RGBD语义分割

　　如何有效地利用额外的几何信息（深度、三维坐标）是RGBD语义分割的关键。许多工作集中在如何从几何图形中提取更多的信息，这在[7]-[10]，[33]中被视为额外的输入。在[6]、[8]-[10]、[12]中采用双流网络分别处理RGB图像和几何信息，并将这两种结果结合在最后一层。这些方法以加倍的参数和计算成本为代价，取得了良好的结果。三维CNN或三维KNN图形网络也被用来考虑几何信息[34]-[36]。此外，还探讨了在三维点云[37]-[42]上的各种深度学习方法。然而，这些方法需要大量内存，计算成本也很高。另一个流将几何信息合并到显式操作中。[43]提出了基于深度引导卷积的三维目标检测，其权值是位置变化的和深度自适应的。Cheng等人[44]使用几何信息构建一个作用于平均池和上池化的特征相似矩阵。Lin等人的[45]根据几何信息将图像分割成不同的分支。Wang和Neumann [16]提出了具有深度感知能力的CNN，它在卷积权值之前增加了深度。虽然它通过卷积改进了特征提取，但先验算法是手工制作的，而不是从数据中学习到的。其他的方法，如多任务学习[7]、[46]-[50]或时空分析[51]，也被进一步用于提高分割精度。该算法的S-Conv旨在有效地利用空间信息，提高特征提取能力。由于只使用少量的参数，可以显著提高性能。

　　C. CNN中的动态结构

　　有部分关于利用动态结构来处理CNN的不同输入的研究。[4]、[22]采用空洞卷积法，在不降低特征图分辨率的情况下增加感受野的大小。空间变压器网络[52]通过扭曲特征图来适应空间变换。动态滤波器[53]会根据输入值自适应地改变其权值。此外，基于自注意的方法[54]-[57]从中间特征图中生成注意图，以调整每个位置的响应或自适应地捕获长期上下文信息。聚焦对上下文语义的理解，形状-变量卷积[57]通过基于语义相关区域的位置-变异卷积来限制其上下文区域。并给出了从二维图像到三维点云的卷积的一些推广。PointCNN [42]是一项开创性的工作，它使CNN能够在一组无序的3D点上运行。[39]-[41]在利用神经网络有效地提取深度特征方面有其他改进。可变形卷积[13]、[14]可以产生具有自适应权值的不同分布。然而，它们的输入是一个中间的特征图，而不是空间信息。第四节中可以看到我们的工作通过实验验证了在空间信息的基础上可以获得更好的结果。

Ⅲ S-CONV和SGNET

　　在本节中，我们首先详细介绍空间信息引导卷积（S-Conv）的细节，它是传统的基于rgb卷积的通过在RGBD场景中涉及空间信息的泛化。然后，我们讨论了S-Conv与其他方法之间的关系。最后，我们描述了空间信息引导卷积网络（SGNet）的网络结构，该网络配备了S-Conv用于RGBD语义分割。

　　A. 空间信息引导卷积

　　为了完整起见，我们首先回顾了传统的卷积运算。我们使用A_i (j)，A∈R^c×h×w表示一个张量，其中i是对应于第一维的指标，j∈R²表示第二维和第三维的两个指标。为方便起见，非标量值将以粗体突出显示。

　　对于一个输入特征图F∈R^c×h×w。为了简单起见，我们在二维中描述它，因此我们注意到X作为输入特征映射。X ∈ R^1×h×w.扩展到3D情况很简单。对X应用得到Y的传统卷积可以表述为：

$\mathbf{Y}(\mathbf{p})=\sum_{i=1}^{K} \mathbf{W}_{i} \cdot \mathbf{X}\left(\mathbf{p}+\mathbf{d}_{i}\right)$　　　　(1)

其中W∈R^K表示卷积核大小为k_h×k_w，K=k_h×k_w。p∈R²为二维卷积中心，d∈R^K×2表示在p周围的核分布。对于3×3卷积，d如下式二中定义:

d={[-1,-1],[-1,0],...,[0,1],[1,1]}.　　　　(2)

从上面的方程中，我们可以看到卷积核在X上是常数。换句话说，W和d是固定的，这意味着卷积是位置不变的和空间无关的。

　　在RGBD环境中，我们希望通过使用自适应卷积核来有效地包含三维空间信息。我们首先根据空间信息生成偏移量，然后利用给定偏移量对应的空间信息生成新的空间自适应权值。我们的S-Conv需要两个输入。一个是特征映射X，它与传统的卷积相同；另一个是空间信息S∈R^c'×h×w。在实践中，S可以是HHA（c'= 3），3D坐标（c'= 3），或深度（c'= 1）。将深度编码为三维坐标和HHA的方法与[36]相同。请注意，输入的空间信息不包含在特征图中。

　　作为S-Conv的第一步，我们将输入的空间信息投影到一个高维的特征空间中，可以表示为：

S' = φ(S),　　　　(3)

其中，φ为一个空间转换函数，而S'∈R^64×h×w，其维数高于S。

　　然后，我们考虑转换后的空间信息S'，感知其几何结构，并生成卷积核在不同p处的分布（像素坐标在x轴和y轴上的偏移量）。此过程可以表示为：

$\Delta \mathbf{d}=\eta\left(\mathbf{S}^{\prime}\right)$　　　　(4)

其中$\Delta \mathbf{d} \in \mathbb{R}^{K \times h^{\prime} \times w^{\prime} \times 2}$，为了简单起见，我们没有在式4中显示$\Delta$d的重塑过程。重塑前$\Delta \mathbf{d} \in \mathbb{R}^{2 K \times h^{\prime} \times w^{\prime}}$。h'，w'表示卷积后的特征图的大小。K = k_h×k_w，其中k_h和k_w是内核大小。对于3×3卷积来说，$\Delta \mathbf{d} \in \mathbb{R}^{9 \times h^{\prime} \times w^{\prime} \times 2}$。η是一个可以通过一系列卷积来实现的非线性函数。

　　在使用$\Delta$d (p)生成每个可能的p的核分布后，我们通过建立几何结构和卷积权值之间的联系来提高其特征提取能力。由于在式4中卷积核的移动，卷积核对应的深度信息也发生了变化。我们需要收集移动后的卷积核对应的深度信息，以产生空间自适应权值。更具体地说，我们对移动后卷积核对应的像素的几何信息进行采样：

$\mathbf{S}^{*}(\mathbf{p})=\left\{\left.\mathbf{S}^{\prime}\left(\mathbf{p}+\mathbf{d}_{i}+\Delta \mathbf{d}_{i}(\mathbf{p})\right)\right|_{i=1,2, \ldots, K}\right\}$　　　　(5)

其中，$\Delta$d (p)是p处卷积核的空间分布。$\mathbf{S}^{*}(\mathbf{p}) \in \mathbb{R}^{64 K}$是变换后以p为中心的卷积核的特征图所对应的空间信息。

　　最后，我们根据最终的空间信息生成卷积权值如下：

$\mathbf{W}^{*}(\mathbf{p})=\sigma\left(f\left(\mathbf{S}^{*}(\mathbf{p})\right)\right) \cdot \mathbf{W}$ 　　　　（6）

其中f是一个非线性函数，可以实现为一系列具有非线性激活函数的全连通层；σ是激活函数，·是元素级乘积，W∈R^K表示卷积权值，可以通过梯度下降算法进行更新。W^∗(p)∈R^K表示以p为中心移动后卷积的空间自适应权值。

　　总的来说，我们的广义S-Conv被表述为：

$\mathbf{Y}(\mathbf{p})=\sum_{i=1}^{K} \mathbf{W}_{i}^{*}(\mathbf{p}) \cdot \mathbf{X}\left(\mathbf{p}+\mathbf{d}_{i}+\Delta \mathbf{d}_{i}(\mathbf{p})\right)$　　　　（7）

我们可以看到，W_i^∗(p)建立了空间信息和卷积权值之间的相关性。此外，卷积核分布也通过$\Delta$d与空间信息相关。请注意，W_i^∗(p)和$\Delta$d_i (p)都不是常数的，这意味着广义卷积可以适应不同的p。此外，由于$\Delta$d通常是分数的，我们使用双线性插值来计算$\mathbf{X}\left(\mathbf{p}+\mathbf{d}_{i}+\mid \Delta \mathbf{d}_{i}(\mathbf{p})\right)$，如在[13]，[52]中。上述主要公式在图2中标记。

图2 空间信息引导卷积（S-Conv）的说明

首先，通过空间投影仪投影输入的三维空间信息，以匹配输入的特征图。

其次，由偏移生成器生成自适应卷积核分布。

最后，根据核分布对投影的空间信息进行采样，输入权值生成器，生成自适应卷积权值。

　　B.与其他方法的关系

　　二维卷积是所提出的没有几何信息的S-Conv的特殊情况。具体来说，在没有几何信息的情况下，如果我们删除由式7中由几何信息生成的W_i^∗(p)和$\Delta$d_i (p)，这个过程将退化为二维卷积。而对于RGBD的情况，我们的S-Conv可以在点水平上提取特征，而不是局限于通过引入空间自适应权重的离散网格，如图3所示。可变形卷积[13]，[14]也通过生成不同的分布权值来缓解了这个问题。然而，它们的分布是从二维特征图中推断出来的，而不是像我们的案例中那样的三维空间信息。我们将通过实验验证我们的方法比可变形卷积[13]，[14]取得更好的结果。与形状可变（SV）卷积[57]相比，SV卷积精细化了基于语义相关区域的位置变异卷积的上下文区域。它实现了一个位置变卷积算子，其权值是位置变的，由特征映射生成，侧重于理解上下文语义。我们的S-Conv利用深度图而不是特征图来生成空间自适应的偏移量和权重。S-Conv的权值和偏移量由空间信息（深度图）定义。这有助于卷积层根据空间信息调整接受域和适应几何变换。与基于3DKNN图的方法相比，我们的S-Conv自适应地选择相邻的像素，而不是使用不灵活且计算成本昂贵的的KNN图。

图3 二维卷积中的权重W和S-Conv中的W^∗的说明。

黄点表示其空间位置沿箭头变化的点。二维卷积的说明在顶部，S-Conv在底部。

传统的二维卷积操作将局部点有序地放置在一个权值固定的规则网格中，而忽略了空间信息。我们可以看到，黄色点的空间位置的变化不能反映在权重上。

我们的S-Conv可以看作是将一个局部斑块放置到一个权重空间中，这是由该斑块的空间引导产生的。

因此，每个点的权重与其空间位置建立了联系，有效地捕获了局部斑块的空间变化。黄色点与其他点之间的空间关系可以反映在自适应权重中。

　　C. SGNet Architecture

　　我们的语义分割网络，称为SGNet，配备了S-Conv，并由一个主干和解码器组成。SGNet的结构如图4所示。我们使用ResNet101 [58]作为我们的主干，并用我们的S-Conv替换每层的第一个和最后两个传统卷积（3×3滤波器）。我们添加了一系列的卷积来进一步提取特征，然后使用双线性上采样来生成最终的分割概率图，它对应于SGNet的解码器部分。在式3中的φ实现上为3个3×3卷积层，即Conv(3, 64) - Conv(64, 64) - Conv(64, 64) 具有非线性激活函数。在式4中的η和式6中的f实现分别为单一卷积层和两个全连接层。S-Conv的实现是由可变形卷积[13]，[14]改进而来的。我们在第3层和第4层之间添加了深度监督，以提高网络优化能力，这与PSPNet [59]相同。

图4 基于S-Conv的SGNet网络架构

SGNet由一个主干网络和一个解码器组成

在第3层和第4层之间增加了深度监督，以改善网络的优化

posted @ 2022-09-27 13:15 Askia 阅读(48) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

DAY 03

ABSTRACT：

Ⅰ INTRODUCTION

Ⅱ RELATED WORK

A. 语义分割

B. RGBD语义分割

C. CNN中的动态结构

Ⅲ S-CONV和SGNET

A. 空间信息引导卷积

B.与其他方法的关系

C. SGNet Architecture

公告

　　A. 语义分割

　　B. RGBD语义分割

　　C. CNN中的动态结构

　　A. 空间信息引导卷积

　　B.与其他方法的关系

　　C. SGNet Architecture