CVPR2020:点云弱监督三维语义分割的多路径区域挖掘
CVPR2020:点云弱监督三维语义分割的多路径区域挖掘
Multi-Path Region Mining for Weakly Supervised 3D Semantic Segmentation on Point Clouds
论文地址:
摘要
点云为场景理解提供了内在的几何信息和表面环境。现有的点云分割方法需要大量的全标记数据。利用先进的深度传感器,采集大规模三维数据集不再是一个繁琐的过程。然而,在大规模数据集上手工生成点级标签是一项费时费力的工作。本文提出了一种在三维点云上利用弱标签预测点级结果的弱监督方法。我们引入多径区域挖掘模块,从训练了弱标签的分类网络中生成伪点级标签。它使用不同的注意模块从网络特征的各个方面挖掘每个类的定位线索。然后,利用点级伪标签对点云分割网络进行全监督训练。据我们所知,这是第一种在原始三维空间上使用云级弱标签来训练点云语义分割网络的方法。在我们的设置中,3D弱标签只指示在输入示例中出现的类。我们讨论了在原始三维点云数据上的场景级和亚云级的弱标签,并对它们进行了深入的实验。在ScanNet数据集上,我们的训练结果与一些完全监督的方法是兼容的。
1.介绍
与2D图像相比,3D数据作为现实世界的投影,带来了物体和场景的几何和周围环境以及它们的RGB信息。这些额外的暗示最近引起了人们的注意。随着深度学习在二维图像视觉任务中的巨大成功,研究人员提出了许多基于深度学习的点云识别任务方法。然而,基于深度学习的方法通常需要大量的数据。近年来,重建算法的进步和更为经济实惠的消费者级深度传感器为三维数据采集提供了方便和廉价的途径。然而,对这些数据的注释仍然需要耗费大量的人力和时间。特别是对于三维数据,需要对重建的三维网格或分组点进行直接标记。例如,ScanNet[8]是一个流行的真实室内环境的大型RGBD数据集,它提供了来自70个独特室内场景的1513次三维扫描,包含超过250万个RGB-D图像。然后利用RGB-D扫描重建三维网格和点云。使用可以连接到智能手机和ipad等移动设备上的Structure sensor[31],只有20人参与了1513次3D扫描的收集。尽管数据收集方便,但注释过程却是非常费时费力的。据统计,共有500余部作品参与了语义标注过程。为了保证注释的准确性,每个场景由2到3名参与者进行注释。总的来说,每次扫描标注的中位和平均时间分别为16.8min和22.3min。本文提出了一种基于弱监督学习的三维点云语义分割方法。为了减少数据注释中的人工成本,我们使用了弱标签,这些标签只指示在输入点云示例中出现的类。因此,我们只能训练一个标签较弱的分类网络。为了寻找分类网络的目标区域,我们将类激活图(CAM)[45]引入到三维点云中,这是一种有效的二维图像中类特定区域定位方法。然而,CAM通常只在最具歧视性的区域工作。为了在点云中的所有点上生成精确的伪标签,我们提出了一个多路径区域挖掘(MPRM)模块,从训练了弱标签的分类网络中挖掘不同的区域信息。在我们的MPRM模块中,我们在分类主干网之后附加了各种注意模块。我们提出了一个空间注意模块来收集沿空间域的远程上下文信息,一个用于探索信道相互依赖性的信道注意模块,以及一个用于将全局信息聚合为局部特征的点态空间注意模块。每个注意模块产生一个分类预测,并用弱标签进行训练。通过对每个路径和原始特征映射应用点类激活映射(PCAM),可以收集从网络特征的各个方面挖掘出的目标区域并生成点级伪掩码。为了利用点云的低层表示和成对关系,我们使用denseCRF[20]来定义伪标签。最后,我们使用我们的点级伪标签训练一个点云分割网络。
虽然弱标签的获取成本很低,但它们可能太差,无法为网络提供生成本地化提示的监督。为了在劳动力成本和表现能力之间找到一个平衡点,我们讨论了两个弱标记策略。在图1中,我们展示了(A)场景级标签,表示场景中出现的类,这是我们可以为点云场景获得的最便宜的标签;(B)常用的点级别标签;(C)次云级别标签,我们从场景中获取球形子样本,并用出现在子云中的类对其进行标记。为了确保人工成本保持较低的次云级别标签,我们只为每个场景选择有限数量的次云。在ScanNet中,平均亚云数为18.4。场景中场景级标签的估计注释时间约为15秒,而场景中子云的注释时间小于3分钟,这仍然比点级注释便宜得多。我们使用场景级标签和亚云级标签对MPRM进行了详细的实验。我们阐述了我们的方法提供了一种可行的方法来训练一个使用弱标签的点云分割网络。我们的结果优于一些流行的全监督点云识别模型,如PointNet++[28]和[33]。此外,我们还发现使用子云级别标签训练的模型比使用场景级别标签训练的模型性能有较大幅度的提高。本文的主要贡献可以概括为:
•我们提出了一种弱监督学习方法,用于仅使用场景和次云级别标签的三维点云语义分割任务。据我们所知,这是第一个从原始3D数据上的云级弱标签学习点云场景分割网络的方法。
•我们提出了一个多路径区域挖掘模块来生成伪点级标签。利用MPRM中的空间注意模块、通道注意模块和点态空间注意模块,通过从网络特征中挖掘远程空间上下文、通道相互依赖性和全局上下文来挖掘各种目标定位区域线索。
2.相关工作
二维图像弱监督语义分割:研究了各种监督方法,以减轻图像密集标注的人工成本。分割任务中采用了Bounding box[18, 32], scribble[23], point[3]。虽然这些类型的监控仍然需要一定的人工成本,但图像级的注释要便宜得多。图像级监控任务的一个常见做法是生成类激活映射(CAM)[45]。其核心思想是从每个类的分类网络中提取本地化线索。然后,以CAM作为伪标签训练分割网络。然而,由于CAM常常无法找到整个对象区域,许多工作[19,17,20,40,1,9]被提出来提高伪标签的准确性。虽然有很多弱监督的图像分割方法,但由于点云的无序结构和密度的变化,很难直接应用到点云上。点云的深度学习:为了在点云上应用深度学习技术,一些方法将三维点云投影到图像上,并在二维图像上进行处理[5,34,35],但是由于遮挡和密度的变化,这种方法在分割任务中常常会遇到很多不足。将点云体素化为3D网格并使用密集的3D CNN对其进行处理也很流行[26,4]。由于3D cnn消耗大量的计算资源,稀疏卷积使用散列映射[11,7]来提高基于体素的方法的性能和效率。为了减少量化的工作量,提出了点网类方法[27,28,24,21]直接处理原始的无序点云数据。这种方法在考虑相邻局部信息方面存在不足。点卷积网络[2,16,12,41,37,25,6,14,15]将卷积运算直接引入原始点云数据。然而,上述方法都是在完全监督下训练的,因此需要大量的全注释数据。少监督点云识别[30]提出了一种自监督方法,通过重新组合随机分割的点云部分来学习点云表示。MortonNet[36]使用Z阶来学习具有自我监督的特征。然而,这两种模型不能直接使用自监督学习特性来完成对象分类、零件分割和语义分割等任务。使用学习到的特征对网络进行预训练有助于提高性能并使用较少的完全注释标签,这将问题转化为半监督设置。[38]提出在三维点云语义分割任务中使用二维语义标注,将三维点云上的分割预测重新投影到二维,但是需要密集的二维标注,代价仍然昂贵。因此,这些方法仍然需要大量昂贵的注释,而且目前还没有直接使用弱3D标签进行3D场景分割的方法。
3.我们的弱监督环境
我们将介绍和讨论场景级弱标签和子云弱标签。
场景级注释:在2D图像的弱标签中,图像级标签是最便宜的。在3D的情况下,场景级标签也是最经济的。它只指示每个场景中出现的类。虽然研究者们已经开发了许多成功的二维弱监督图像分割方法,但是在三维弱监督场景分割中使用场景级标签有两个主要的挑战:(1)从RGB-D序列中重建三维数据,这些序列通常包含比单个图像更多的信息。因此,大场景的单个标签相当粗糙;(2)对于室内场景,有几个常见的类以高频出现。像墙和地板这样的类几乎出现在每一个场景中,它们通常在每个场景中都有一个占主导地位的点数。由于这个严重的类不平衡问题,分类网络可能无法学习区分特征,这使得我们很难找到类区域定位线索。亚云级标注:为了解决上述问题,同时保持低的标注成本,我们提出了室内场景点云数据的亚云级标注。我们将种子点均匀地放置在空间中,取半径r内的所有相邻点组成一个亚云。
4. 我们的框架
4.1.基线法:PCAM
CAM[45]作为一种类特定的对象定位工具,在2D图像的弱监督语义分割任务中起着至关重要的作用。提出了一种点类激活图(PCAM),将CAM应用到点卷积网络中,生成点云数据的定位线索。我们使用带有ResNet[13]块的KPConv[37]分类网络作为我们的主干网。KPConv是一种直接以无序点为输入的点卷积网络。提出了一种核卷积运算,它利用索引字典对三维空间核半径内的一点及其所有邻域进行卷积。如图2所示,我们向分类网络提供点云/子云和相应的弱标签。然后,从卷积层中提取输出特征映射。附加1×1卷积层作为分类器,将特征维数减少到类的数量,从而得到PCAM特征图。在训练过程中,我们使用全局平均池层获取预测向量,并使用弱标签计算sigmoid交叉熵损失。
4.2.多路径区域挖掘
在我们的弱监督学习框架中,我们训练了一个带有分类标签的分类网络,并尝试从该网络中找到类区域定位线索。然而,分类网络仅用于预测输入点云的类标签。从最具区别性的特征中学习就足够完成分类任务了。因此,在非区分区域使用pcam很难确定类信息。因此,我们希望利用不同的注意机制从网络中挖掘出更多有区别的区域。由于每一种注意机制关注的是网络特征的不同方面,因此我们可以产生不同的区分区域,并将它们聚合起来生成我们的点级伪标签。如图3所示,我们的多路径区域挖掘模块由KPConv ResNet层之后的四个不同路径组成。第一个路径是4.1中引入的普通PCAM。同时,我们有空间注意模块、通道注意模块和点方向注意模块。每个路径后面都有一个1×1的卷积层作为分类器来生成一个单独的PCAM。然后,我们使用一个全局平均池层来生成预测向量,并使用每个路径的弱标签计算sigmoid交叉熵损失。所有的损失都会反向传播到主干网。为了生成伪标签,我们从每个路径中提取PCAM,通过元素最大值合并它们,并通过最近的上采样将PCAM上采样到原始大小。通过获取最大值,我们可以从分类网络的各个方面收集不同路径的鉴别特征。因此,我们可以产生更精确的点级伪标签。
4.3.学习语义分割网络
在获得四个不同的pcam之后,我们使用元素最大值来获得每个位置的最大值,并对其进行上采样以生成伪掩模。然后,为了利用低层次的上下文信息和点之间的成对关系,我们使用dCRF[20]来定义伪标签。到我们提供了一个全尺度的网络分割模型。此外,尽管伪标签分类错误,深层卷积神经网络仍能学习更多的特征表示,并产生更好的结果。在这里,我们使用了KPConv U-Net[29]类结构化细分模型作为最终模型。
5.实验测试
为了说明效果,我们比较了我们的PCAM基线和MPRM与场景和亚云级别标签。表2显示了类特定的伪标签性能。在这两种情况下,使用亚云级别标签的性能都处于领先地位。具体地说,我们可以观察到使用场景级标签时,对小对象的分割性能非常差,尤其是那些通常放置在墙附近的对象。
如表2所示,我们在训练集中展示了伪标签的类特定分割结果。结果表明,多路径区域挖掘模块可以同时使用场景级和次云级标签来提高分割性能。通过场景级监控,我们观察到我们的基线方法很难找到与主要类(如门、窗、图片)相邻的类的任何信息,而我们的MPRM模块在这些类上的性能大大提高。它表明,使用我们的MPRM,网络学习将小对象从主类中分离出来。从图5可以看出,MPRM从主要类生成更多的小对象区域,并在空间上生成更好的平滑度。
在这一部分,我们进行了详细的实验来评估我们的多路径区域挖掘模块。如表3所示,我们评估每个路径的性能以及它们与原始PCAM的组合。同时,我们比较了两种不同的融合方法。请注意,使用所有四条路径的损耗同时训练网络。与基线结果相比,我们在MPRM中的PCAM路径比仅仅训练一个分支要好。因此,我们可以了解到,不同路径的损失确实有助于分类主干产生更好的特性。在这四条路径中,空间注意路径单独表现最好,并且三个模块都比原始PCAM产生更好的效果。此外,每两个分支的组合都优于各自分支的组合,这证明了我们不同的路径确实在从分类网络中学习各种特征。由于四条路径的合并结果比其他任何组合都要高,因此我们证明这四条路径都有助于生成更好的伪标签。
在表4中,我们展示了在验证集上使用子云级别注释的分段性能。我们可以观察到MPRM在验证集上的性能优于基线方法。我们还发现,重新训练一个全尺寸分割网络可以提供比原始特征图更好的结果,因为一个更深的网络可以比我们的浅层网络学习更多的表示。此外,通过再培训,我们可以将dCRF生成的低层特征聚合到最终模型中,并将后处理步骤合并到端到端网络中。我们将我们的最终结果与表5中的一些完全监督的方法进行了比较。我们的弱监督方法与现有的方法相比还有很大的性能差距,但是我们的弱监督方法与一些完全监督的方法是兼容的。我们还在图6中显示了定性结果。