ViP DeepLab：使用深度感知视频全景分割学习视觉感知

ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation

摘要

在本文中，提出了ViP DeepLab，这是一个统一的模型，试图解决视觉中长期存在且具有挑战性的逆投影问题，将其建模为从透视图像序列中恢复点云，同时为每个点提供实例级语义解释。解决这个问题需要视觉模型预测每个3D点的空间位置、语义类和时间一致的实例标签。

ViP DeepLab通过联合执行单目深度估计和视频全景分割来实现这一点。将这项联合任务命名为深度感知视频全景分割，并提出了一种新的评估指标以及两个衍生的数据集，这些数据集将向公众开放。在单独的子任务上，ViP DeepLab也取得了最先进的结果，在Cityscapes VPS上比以前的方法高出5.1%VPQ，在KITTI单目深度估计基准上排名第一，在KITT MOTS行人上排名第一。

1.简介

逆投影问题是视觉中最基本的问题之一，指的是从视网膜图像到视网膜刺激源的模糊映射。这种映射需要使用包含在2D图像中的有限信号来检索关于3D环境的所有视觉信息。人类能够通过识别物体、确定其大小和重建3D场景布局等轻松建立这种映射。为了赋予机器类似的视觉感知3D世界的能力，旨在开发一种模型来解决逆投影问题。

作为解决逆投影的一步，该问题被简化为从透视图像序列中恢复具有语义理解的3D点云，这需要视觉模型来预测每个3D点的空间位置、语义类别和时间一致的实例标签。

图1显示了在本文中研究的反投影问题的一个例子。这个简化的问题可以公式化为深度感知视频全景分割（DVPS），它包含两个子任务：

（i）单目深度估计，用于估计投影到图像平面的每个3D点的空间位置，以及

（ii）视频全景分割，其将3D点与时间一致的实例级语义预测相关联。

对于新任务DVPS，提供了两个导出的数据集，并附带了一个名为Depthaware视频全景质量（DVPQ）的新评估度量。DVPS数据集很难收集，因为它们需要特殊的深度传感器和大量的标记工作。

现有的数据集通常缺少一些注释，或者不是DVPS的格式。解决方案是为DVPS扩充和转换现有数据集，生成两个新的数据集，Cityscapes DVPS和SemKITTI DVPS。Cityscapes DVPS是通过从Cityscape数据集添加深度注释从Cityscopes VPS派生的，而SemmKITTI DVPS是从SemanticKITTI派生的，通过将其注释的3D点云投影到图像平面。此外，所提出的度量DVPQ包括深度估计和视频全景分割的度量，需要视觉模型来同时处理这两个子任务。为此，提出了ViP DeepLab，这是一个统一的模型，可以联合对图像平面上的每个像素执行视频全景分割和单目深度估计。在下文中，将介绍ViP DeepLab如何处理这两个子任务。

DVPS的第一个子任务是视频全景分割。全景分割通过为每个像素分配语义标签和实例ID来统一语义分割和实例分割。它最近被扩展到视频域，导致视频全景分割，这进一步要求每个实例在整个视频序列中具有相同的实例ID。这对全景分割提出了额外的挑战，因为该模型现在有望在检测和分割对象的过程中追踪对象。当前的方法VPSNet添加了一个跟踪头，以基于不同帧的实例的区域特征相似性来学习它们之间的对应关系。

相比之下，ViP DeepLab采用了不同的方法来跟踪对象。具体而言，由于发现视频全景分割可以建模为级联图像全景分割，扩展了panoptic DeepLab，仅针对第一帧中出现的对象中心对两个连续帧执行中心回归。在推断过程中，这种偏移预测允许ViP DeepLab将两帧中的所有像素分组到第一帧中出现的同一对象。如果未将新实例分组到先前检测到的实例，则会出现新实例。该推理过程对于视频序列中的每两个连续帧（具有一个重叠帧）继续，将全景预测拼接在一起以形成具有时间一致的实例ID的预测。

基于这种简单的设计，ViP DeepLab以5.1%VPQ的大幅度优于VPSNet，创下了Cityscapes VPS数据集的新纪录。此外，多对象跟踪和分割（MOTS）是一项与视频全景分割类似的任务，但仅分割和跟踪两类：

行人和汽车。因此，也将ViPDeepLab应用于MOTS。因此，ViP DeepLab在行人和汽车方面分别比当前最先进的PointTrack[87]高7.2%和2.5%的sMOTSA，在KITTI MOTS行人排行榜上排名第一。

DVPS的第二个子任务是单目深度估计，这对计算机和人类都具有挑战性。最先进的方法大多基于以完全监督的方式训练的深度网络。按照相同的方向，ViP DeepLab在PanopticDeepLab的顶部添加了另一个深度预测头。在不使用任何额外的深度训练数据的情况下，这种简单的方法优于KITTI基准上所有已发表和未发表的工作。

具体而言，它的性能优于DORN 0.97 SILog，甚至优于使用额外行星级深度数据的MPSD，打破了具有挑战性的KITTI深度估计的长期记录。值得注意的是，性能最好的方法之间的差异都在0.1SILog左右，而方法明显优于它们。

综上所述，贡献如下。

•提出了一个新的任务——深度感知视频全景分割（DVPS），作为解决逆投影问题的一步，将其公式化为联合视频全景分割和单目深度估计。

•提供了两个DVPS数据集以及一个评估指标深度感知视频全景质量（DVPQ）。为了促进未来的研究，数据集和评估代码将公开。

•开发了ViP DeepLab，这是DVPS的统一模型。在单独的子任务中，ViP DeepLab在城市景观VPS、KITTI-MOTS行人和KITTI单目深度估计方面排名第一。

2.相关工作

全景分割最近的图像全景分割方法可以分为两种类型：自上而下（基于提案）的方法和自下而上（无框）的方法。自上而下的方法采用两阶段方法，生成对象建议，然后根据区域计算输出全景预测。例如，泛光FPN将语义分割头合并到Mask RCNN中。Porzi等人提出了一种新颖的分割头，通过类似DeepLab的轻量级模块集成FPN特征。自下而上的全景分割方法将像素分组以在语义分割预测之上形成实例。例如，SSAP使用像素对亲和金字塔和级联图划分模块来生成从粗略到精细的实例。

BBFNet使用霍夫投票和分水岭变换来生成实例分割预测。Panoptic DeepLab雇佣

在DeepLab的语义分割输出之上进行类不可知的实例中心回归。

目标跟踪是视频全景分割的主要任务之一。许多跟踪器使用通过检测进行跟踪，这将任务分为两个子任务，在这两个子任务中，对象检测器找到所有对象，然后算法将它们关联起来。另一种设计是将对象检测器转换为同时检测和跟踪对象的对象跟踪器。例如，CenterTrack扩展CenterNet以预测从对象中心到前一帧中对象中心的偏移。

STEmSeg提出通过学习时空嵌入来对视频片段中的所有实例像素进行分组。相比之下，ViP DeepLab通过对两个连续视频帧中的所有实例像素进行聚类，隐式地执行对象跟踪。

此外，方法简单地使用了中心回归，并在MOTS上获得了更好的结果。

单色深度估计单色深度估计预测单个图像的深度。它可以以有监督的方式学习，通过在立体设置中重建图像，从视频中或按相对顺序学习。ViP DeepLab将单目深度估计建模为一个密集回归问题，并以完全监督的方式对其进行训练。

3.ViP DeepLab

在本节中，介绍了ViP DeepLab，它扩展了Panoptic DeepLab来联合执行视频全景分割和单目深度估计。

3.1视频全景分割

重新思考图像和视频全景分割在视频全景分割任务中，每个实例都由图像平面上的一个管和帧堆叠时的时间轴表示。给定具有时间窗k的剪辑

，真正（TP）由

定义，其中

和

分别是地面真值和预测管的集合。

相应地定义了假阳性（FP）和假阴性（FN）。在对具有窗口大小k和类别c的所有剪辑累积

、

和

之后，评估度量视频泛光质量（VPQ）定义为

因此PQ等于

（即k＝1）。

方法是基于PQ和VPQ之间的连接。对于图像序列

，设

表示全景预测，

是地面实况全景分割。当

在大小为k的窗口内累积来自

和

的PQ相关统计数据时，得到

其中，

表示

从t到t+k-1的水平级联，并且

表示作为函数输入的从1到t的

对的列表。等于。（2）揭示了一个有趣的发现，即视频全景分割可以公式化为图像拼接的图像全景分割。这一发现促使将图像全景分割模型扩展到视频全景分割，并进行额外的修改。

从图像到视频全景分割PanopticDeepLab通过解决三个子任务来解决图像全景分割问题：

（1） “thing”和“stuff”类的语义预测，

（2） “thing”类的每个实例的中心预测，以及

（3）对象的每个像素的中心回归。图2显示了左侧任务的示例。在推理过程中，保持具有高置信度分数的对象中心，并且每个“事物”像素与最近的对象中心相关联，以形成对象实例。PanopticDeepLab将这种“事物”预测和来自语义分割的“事物”预报相结合，生成最终的全景预报。

方法扩展了Panoptic DeepLab来执行视频全景分割。如图2右侧所示，它还将视频全景分割任务分解为三个子任务：语义分割、中心预测和中心回归。在推理过程中，方法将水平连接的图像t和t+1作为输入，只预测图像t中的中心。t和t+1的中心回归将回归到图像t中对象的中心。通过这样做，算法检测第一帧中的对象，并在第一帧和第二帧中找到属于它们的所有像素。仅出现在第二帧中的对象在这里被忽略，并且当模型处理下一个图像对（即，（t+1，t+2））时将再次出现。方法将视频全景分割建模为级联图像全景分割，与度量VPQ的定义高度一致。

图3显示了方法的体系结构。为了执行上述推断，在训练期间将图像t和t+1作为输入，并使用图像t的特征来预测图像t的语义分割、对象中心和中心偏移。此外，添加了下一帧实例分支，该分支预测图像t+1中的像素相对于图像t中的中心的中心偏移。由于它们的主干特征在级联之前被分离，下一个帧实例分支需要一个大的感受野来执行长程中心回归。为了解决这个问题，在分支中使用了四个ASPP模块，它们的输出紧密相连，以显著增加感受野。将这个密集连接的模块命名为Cascade ASPP。最后，如图中彩色箭头所示，下一帧实例分支中的解码器使用图像t+1的主干特征，而其他分支使用图像t的主干特征。

图3:ViP DeepLab通过添加深度预测头来执行单目深度估计和下一帧实例分支来扩展Panoptic DeepLab（灰色部分），该分支回归到第t+1帧的第t帧中的对象中心。

图4：拼接视频全景预测的可视化。它在区域对之间传播基于掩码IoU的ID。ViP DeepLab能够跟踪有大动作的物体，例如图像中的自行车手。Rt的泛光学预测具有高质量，这就是为什么一种简单的基于IoU的缝合方法在实践中效果良好的原因。

拼接视频全景预测方法输出两个连续帧的具有时间一致ID的全景预测。为了生成整个序列的预测，需要缝合全景预测。

图4显示了缝合方法的一个示例。对于每个图像对t和t+1，在中间分割级联输入的全景预测，并使用

表示左侧预测，使用

表示右侧预测。通过这样做，Pt变成图像t的全景预测，

变成图像t+1的全景预测的实例ID与Pt的实例ID一致。缝合的目标是将ID从

传播到

，以便

和

中的每个对象都具有相同的ID。

ID传播基于区域对之间的掩码IoU。对于

和

中的每个区域对，如果它们具有相同的类，并且两者都发现彼此具有最大的掩码IoU，则在它们之间传播ID。

未接收ID的对象将成为新实例。

3.2.单目深度估计

将单目深度估计建模为一个密集回归问题，其中每个像素都有一个估计的深度。如图6所示，3，在语义分支（即语义解码器）的解码特征之上添加了深度预测头，该深度预测头将特征上采样2倍，并生成用于深度回归的logits

：

MaxDepth控制预测深度的范围，对于KITTI的范围（约0到80m），预测深度设置为88。

已经提出了许多度量来评估单目深度预测的质量。其中，尺度不变对数误差和相对平方误差是常用的两种误差，也可以直接优化为训练损失函数。因此，将它们结合起来训练深度预测。具体而言，设

和

分别表示地面实况和预测深度。深度估计损失函数定义如下

3.3.深度感知视频全景分割

受解决逆投影问题的启发，引入了一项具有挑战性的任务，即深度感知视频全景分割（DVPS），将单目深度估计和视频全景分割的问题统一起来。在DVPS的任务中，图像被密集地注释为每个标记像素的元组

，其中，

和

表示其语义类、实例id和深度。该模型预计还将为每个像素生成元组

。

为了评估DVPS的方法，提出了一种称为深度感知视频全景质量（DVPQ）的度量，该度量通过额外考虑内部度量的深度预测来扩展VPQ。具体地说，设P和Q分别是预测和地面实况。使用

、

和

来表示示例i对语义类、实例id和深度的预测。这些符号也适用于Q。设k为窗口大小（如等式（2）所示），λ为深度阈值。然后，定义

其中

对于在λ下具有绝对相对深度误差的像素

，否则将被分配一个无效标签。换句话说，滤除

具有大的绝对相对深度误差的像素。因此，

度量VPQ（也是图像PQ）和深度内围层度量，

可以大致视为DVPQ的特殊情况。

评估了四个不同的k值（取决于数据集）和三个λ=｛0.1、0.25、0.5｝值的

。这些λ值分别近似对应于深度内尺度δ<1.1、δ<1.25和δ<1.5。它们比深度评估中常用的阈值1.25、

和

更难。选择更硬的阈值，因为许多方法能够在之前的指标上获得>99%的结果。通过对k和λ，较大的k和较小的λ对应于对联合视频全景分割和深度估计的长期一致性的更高精度要求。

4.数据集

为了评估新任务“深度感知视频全景分割”，创建了两个新的数据集，CityscapesDVPS和SemKITTI DVPS。图5显示了两个示例，每个数据集一个。详细情况如下。

4.1.城市景观DVPS

原始城市景观仅包含图像级全景注释。最近，Kim等人引入了一个视频全景分割数据集Cityscapes VPS，通过进一步注释每个30帧视频序列中的6帧（每个注释之间的间隔为5帧），得到总共3000个注释帧，其中训练、验证和测试集分别有2400、300和300帧。在数据集中，有19个语义类，包括8个“thing”和11个“stuff”类。

尽管Cityscapes VPS包含视频全景注释，但缺少深度注释。发现，深度标注可以通过原始Cityscapes数据集提供的立体图像从视差图转换而来。然而，预先计算的视差图的质量并不令人满意。为了改进它，选择了几种现代视差估计方法并遵循这个过程。然而，为了阻止再现深度生成过程（以便可以与基准进行博弈），不披露细节（例如，使用的确切视差方法）。深度标注将公开。

4.2.SemKITTI DVPS

SemanticKITTI数据集基于KITTI Vision基准的里程计数据集。该数据集将22个序列划分为11个训练序列和11个测试序列。训练序列08用于验证。

该数据集包括8个“thing”类和11个“stuff”类。SemanticKITTI数据集提供透视图像和全景标记的3D点云（即，注释语义类和实例ID）。为了将其转换为使用，

将3D点云投影到图像平面中。然而，在转换数据集时存在两个挑战，如图6所示。第一个问题是，有些点云对摄影机不可见，但会被记录和标记。例如，图6的第一行显示，由于不同传感器的对准，汽车后面的一些区域在转换的深度图中变得可见。

为了解决这个问题，遵循Uhrig等人的方法，对Cityscapes DVPS使用相同的视差方法来去除表现出较大相对误差的采样点，这些采样点在右图中以红色突出显示。将此处理称为视差一致性检查。第二个问题是，投影后，薄物体（如极点）的区域通常会被远处的背景点云入侵。为了缓解这个问题，对于小的图像块，如果存在至少一个更靠近相机的前景点，则去除投影的背景点。将此处理称为非前景抑制。在实践中，使用一个小的7×7图像补丁。这样做会为薄对象留下清晰的边界，因此可以在不混淆的情况下识别它们，如图6的第二行所示。

5.实验

首先介绍在新任务“深度感知视频全景分割”中的主要结果。然后，展示了方法应用于三个子任务，包括视频全景分割、单目深度估计以及多目标跟踪和分割。

5.1.深度感知视频全景分割

表1显示了对深度感知视频全景分割的结果。在将公开的数据集Cityscapes DVPS和SemKITTI DVPS上评估了方法，以便研究界可以将它们的方法与之进行比较。评估基于提出的DVPQkλ度量（等式（5）），其中λ是相对深度误差的阈值，k表示评估中使用的短视频剪辑的长度。

表1:ViP DeepLab在Cityscapes DVPS和SemKITTI DVPS上评估的深度感知视频全景分割（DVPS）任务的性能。每个单元格显示

，其中λ是相对深度误差的阈值，k是帧数。较小的λ和较大的k对应较高的精度要求。

5.2.视频全景分割

DVPS的第一个子任务是视频全景分割（VPS）。按照设置在Cityscapes VPS上进行实验。表2显示了对其验证集（顶部）和测试集的主要结果，其中测试集注释对公众不可用（底部）。如表所示，方法在验证集和测试集分别优于VPSNet 5.6%VPQ和5.1%VPQ。

表3显示了Cityscapes VPS的消融研究。基线是在ImageNet上预训练骨干WR-41的方法。接下来，“MV”使用在Mapillary Vistas上预训练的检查点初始化模型CS’使用了一个在城市景观视频上进一步预训练的模型，该模型在火车序列上带有伪标签。“MV”和“CS”都只涉及图像全景分割预训练。

因此，它们主要改善图像PQ（即k=1），但增加了

之间的间隙

，表明时间一致性从预训练的模型中获益较少。然后，“DenseContext”增加了下一帧实例分支的上下文模块数量（从1个增加到4个），从而缩小了

之间的差距。”AutoAug使用AutoAugment来扩充数据RFP增加了递归特征金字塔（RFP）来增强主干TTA’代表测试时间增强，包括0.5:1.75:0.25的多尺度推理和水平翻转。在“SSL”中，跟随Naive Student在Cityscapes视频中的未标记训练序列上生成时间一致的伪标签，这增加了更多的训练样本以实现时间一致性，如

上的+0.1%和

上的+0.6%所示。

表2：城市景观VPS的VPQ。每个单元格显示

。VPQ在k＝{1,2,3,4}上取平均值。[42]中的k={0，5，10，15}对应于本文中的k={1，2，3，4}，因为我们使用不同的符号。

表3：城市景观VPS消融研究。

图7：城市景观DVPS（顶部）和SemKITTI DVPS（底部）的预测可视化。从左到右：输入图像、时间一致的全景分割预测、单目深度预测和点云可视化。

表4:KITTI深度预测排行榜。排名包括已发表和未发表的方法。

表5:KITTI MOTS排行榜。排名包括已发表和未发表的方法。

5.3.单目深度估计

DVPS的第二个子任务是单目深度估计。在KITTI深度基准上测试了方法。表4显示了排行榜上的结果。模型是在带有伪标签的Mapillary Vistas和Cityscapes视频上预训练的（即，与在之前的实验中使用的预训练检查点相同）。然后利用KITTI深度基准提供的训练和验证集对模型进行微调。但是，该模型与以前的模型在以下方面略有不同。它不使用RFP。在TTA中，它只有水平翻转。在训练中使用±5度的随机旋转，这使SILog提高了0.27。之前的模型使用了步幅为8和4的解码器。在这里，发现进一步利用解码器步长2是有用的，它将SILog提高了0.17。经过上述变化，方法在KITTI深度基准上取得了最好的结果。

5.4.多目标跟踪和分割

最后，在KITTI MOTS基准上评估了方法。表5显示了排行榜结果。与之前的实验不同，这个基准只跟踪行人和汽车。采用与在Cityscapes VPS中使用的策略相同的策略，ViP DeepLab优于所有已发表的方法，对行人和汽车分别实现了67.7%和80.6%的sMOTSA。为了进一步改进结果，使用卡尔曼滤波器（KF）来重新定位被遮挡或检测失败的丢失对象。该机制将行人和汽车的sMOTSA分别提高了1.0%和0.4%。

6.结论

提出了一个新的具有挑战性的任务——深度感知视频全景分割，它将单目深度估计和视频全景分割相结合，作为解决视觉中逆投影问题的一步。对于这项任务，提出了深度感知视频全景质量作为评估指标，以及两个导出的数据集。将ViP DeepLab作为这项任务的强大基线。此外，ViP DeepLab还在几个子任务上实现了最先进的性能，包括单目深度估计、视频全景分割以及多对象跟踪和分割。

参考文献链接

https://arxiv.org/pdf/2012.05258.pdf

ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation

posted @ 2024-01-23 05:31 吴建明wujianming 阅读(71) 评论(0) 编辑收藏举报

刷新页面返回顶部

吴建明

ViP DeepLab：使用深度感知视频全景分割学习视觉感知

公告