图像分块分割
图像分块分割
SCOPS: Self-Supervised Co-Part Segmentation
论文链接:
摘要
分块提供了对象的良好中间表示,该表示对于摄影机、姿势和外观变化而言是稳健的。现有的分块分割方法大多采用有监督的方法,这些方法依赖于大量的人工标注,不能推广到不可见的对象类别。本文提出了一种自监督的分块分割深度学习方法,在这种方法中,本文设计了几个损失函数来帮助预测几何集中、对对象变化鲁棒且在不同对象实例中语义一致的分块段。在不同类型的图像集合上进行的大量实验表明,与现有的自监督技术相比,本文的方法可以生成符合对象边界的部分片段,并且跨对象实例的语义更加一致。
1. Introduction
在这项工作中,本文提出了一个自我监督的深度学习框架来分割分块。只要给定同一对象类别的图像集合,本文的模型就可以学习跨不同对象实例语义一致的部分分段。 本文的学习方法是类不可知的,也就是说,可以应用于任何类型的刚性或非刚性对象类别。而且,本文只使用ImageNet预先训练过的特征(26、39、17)形式的非常弱的监控,这些特征很容易获得。
与最近的深度学习技术[42,41,50]相反,本文的网络以弱或无监督的方式学习地标(关键点),本文的网络预测的部分分割提供了比地标或边界框更丰富的中间对象表示。为了训练本文的分割网络,本文考虑了一个好的部分分割的几个特性,并将这些先验知识编码到损失函数中。
具体而言,本文考虑了分块分割的四个理想特征:
•几何集中:分块在几何上集中,形成连接部件。
•对变化的鲁棒性:由于姿势变化以及相机和视点变化,分块段对于对象变形是鲁棒的。
•语义一致性:分块段应在不同的对象实例之间具有语义一致性,并具有外观和姿势变化。
•对象作为部件的并集:部件出现在对象上(不是背景),部件的并集形成一个对象。
本文设计了有利于具有上述特性的分块分割的损失函数,并使用这些损失函数来训练本文的分块分割网络。本文将在第3节详细讨论这些损失函数。
本文称本文的分块分割网络为“SCOPS”(自监督的共分块分割)。图1显示了示例图像集合和SCOPS预测的相应部分分段。这些可视化结果表明,尽管对象实例之间存在很大的差异,SCOPS可以估计出跨对象实例语义一致的部分分段。
与最近的无监督地标检测方法[42,41,50]相比,本文的方法在处理遮挡的同时对外观变化相对稳健。此外,本文的方法可以处理图像中的多个对象实例,这是不可能通过地标估计固定数量的地标。
与最近的深度特征分解(DFF)相比,本文的方法[10]可以扩展到更大的数据集,可以生成更清晰的部分片段,这些片段遵循对象边界,并且跨对象实例的语义也更一致。本文通过间接测量未对齐CelebA[29]、AFLW[22]和CUB[44]数据集图像的地标估计精度,以及PASCAL VOC数据集[11]的前景分割精度,来定量评估本文的部分分割结果。结果表明,SCOPS与最近的技术相比始终表现良好。
总之,本文提出了一个自监督的深度网络,它可以预测跨对象实例语义一致的部分分割,同时对对象的姿态和外观变化、相机变化和遮挡具有相对的鲁棒性。
2. Self-Supervised Co-Part Segmentation
在给定同一目标类别的图像集合的情况下,本文的目标是学习以单个图像为输入输出部分分割的深层神经网络。如第1节所述,本文关注分块分割的重要特征,并设计支持这些特性的损失函数:几何集中性、对变化的鲁棒性、语义一致性和作为分块联合的对象。在这里,本文首先描述本文的总体框架,然后描述不同的损失函数,以及它们如何鼓励上述属性。在此过程中,本文还评论了本文的损失函数与文献中现有损失函数的联系和区别。
由于本文不假设任何地面真值分割注释的可用性,因此本文将几个约束作为可微损失函数来描述分块分割的上述期望特性,例如几何集中性和语义一致性。分块分割网络的总损失函数是不同损失函数的加权和。与一些在测试时间推断过程中需要多幅图像的共分割方法[24、32、19、43、33]相反,本文的网络在测试时间期间仅将一幅图像作为输入,从而使本文的训练模型更好地移植到未看到的测试图像。
这种损失与最近在无监督地标估计技术中使用的损失密切相关[50,42]。而张等人 [50]近似高斯分布的地标响应图,本文主要应用浓度损失来惩罚远离部分中心的部分响应。除了集中损失,[50]和[42]提出了一种分离(多样性)损失的形式,使不同地标之间的距离最大化。但是,本文不采用这种约束,因为这种约束会导致分离的部分段,中间有背景像素。
本文希望提倡的第二个特性是,分块分割应该对外观和姿态变化具有鲁棒性。图3说明了本文如何使用等变约束来鼓励对变化的健壮性。
尽管等变损失有利于对某些对象变化具有鲁棒性的部分分割,但由于图像之间的外观和姿势变化太高,无法通过任何艺术变换进行建模,因此合成生成的变换不足以在不同实例之间产生一致性(参见图1和4示例)。为了鼓励不同对象实例之间的语义一致性,本文需要在loss函数中显式地利用不同的实例。
3. Experiments
在整个实验中,本文将本文的技术称为“SCOPS”(自监督共部分分割)。由于SCOPS是自监督的,因此分割不一定对应于人类注释的对象部分。因此,本文使用两种不同的代理度量对不同对象类别的SCOPS进行了定量评估,包括CelebA[29]、AFLW[22](人脸)、CUB[44](鸟类)和PASCAL[11](公共对象)数据集。在CelebA、AFLW和CUB数据集上,本文通过选取分块中心(Eqn)将分块分割转换为地标。1) 并根据基础真理注释进行评估。在最近的研究[50,42]之后,本文建立了一个线性回归器,它学习将检测到的地标映射到地面真值地标,并根据测试数据评估得到的模型。在PASCAL上,本文对部分分割进行聚合,并使用前景分割IOU对其进行评估。
在表1中,本文报告了用眼间距离标准化的平均L2距离的地标回归误差。为了与现有的无监督地标发现工作进行比较,本文实现了文献[50]和[42]中提出的损失函数,包括集中、分离、地标等变和重建。本文用这些约束条件训练本文的基础网络,并将其称为“ULD”。为了验证本文的ULD实现,本文在align celebA图像上对其进行训练,产生5.42%的地标估计误差,与[42]中报告的5.83%和[50]中的3.46%相当。
此外,本文在AFLW数据集[22]上训练SCOPS,该数据集包含4198张人脸图像(经过过滤)和21个带注释的地标。在[50]之后,本文在CelebA和AFLW上对模型进行了预训练。结果见表2。结果表明,SCOPS在该数据集图像上的表现也优于ULD和DFF。尽管里程碑预测精度不能直接衡量学习部分的分割质量,但这些结果表明,在具有挑战性的非对齐设置下,学习部分的分割在语义上是跨实例一致的。
为了验证不同约束条件的个体贡献,本文进行了详细的消融研究,结果见表1(右)。相应的可视化结果如图5所示。
本文还对CUB-2011数据集[44]中更具挑战性的鸟类图像进行了评估,该数据集包含11788幅图像,包含200种鸟类和15个标志性注释。数据集具有挑战性,因为各种鸟类姿势,例如站立、游泳或飞行,以及不同的相机视角。本文在前三种鸟类类别上训练K=4的scop,并与ULD和DFF进行比较。本文在图6中显示了一些定性结果。在这样的物体变形水平下,本文发现ULD很难定位有意义的部分。
为了考虑图像中不同的鸟的大小,本文通过提供的地面真值边界框的宽度和高度来规范化地标估计误差。表3显示了不同技术的定量结果。
由于共分割度量只表示整体目标定位,而不表示分块分割的一致性,因此该度量只表示分块分割的质量。本文在图7中显示了一些可视化结果,在表4中显示了定量评估。在IoU方面,无论有没有CRF后处理,SCOP都比DFF有相当大的优势[23]。视觉结果表明SCOPS对不同的外观和姿势的关节具有很强的鲁棒性。
4. Conclusion
本文提出了SCOPS,一种用于copart分割的自监督技术。给定一个对象类别的图像集合,SCOPS可以学习在不使用任何基本事实注释的情况下预测语义一致的部分分割。本文设计了一些约束条件,包括几何集中、等价性和语义一致性,以训练深层神经网络,发现语义一致的部分片段,同时确保良好的几何配置和跨实例对应。在不同类型的图像集合上的结果表明SCOPS对不同的对象外观、相机视点以及姿势关节具有鲁棒性。定性和定量分析结果表明,SCOPS方法优于现有方法。本文希望所提出的方法可以作为学习copart分割的一般框架。