《what's the point: semantic segmentation with point supervision 》阅读笔记

摘要

语义分割任务在发展中呈现这样的矛盾,在推理的准确性和标注所花费的时间之间。逐像素的细节标注可以训练更准确的模型,但要花费更多的时间。图片级别的标注是一个容易实现的方式,但结果会得到不准确的模型。我们很自然的选择了比图片级标注更强一点的监督方式:为每一个存在的对象标注一个点,我们试着将这种点标注与实例级别任务的损失函数结合,形成卷积神经网络。在pascal voc2012的实验结果表明,相比图片级标注,这种结合使结果提升了12.9%的mIOU。另外,我们演示了使用点标注进行训练的模型相比图片级标注更准确,相比像素级全监督耗时更少。

1.简介

在视觉识别最前沿的问题是如何有效的教给计算机新的概念。相比弱监督学习的算法,那些在仔细标注的数据上进行训练的模型有着更好的表现,然而获取这样的数据需要花费大量的时间。 获取语义分割的训练数据尤其困难,例如,在图片中为每一个像素点标注一个类别标签。强监督方法需要像素级标注的数据集。对单一目标的的精准标注需要花费54s到79s的时间,一个通常的场景图片中包含有23个对象,每一张图片的标注时间大概在10分钟。针对这个问题,一些方法试着从更有效地操作界面去改进,以减少标注所花费的时间:例如只在需要的是时候进行人机交互反馈。然而,准确的像素级标注依然是费事、稀少的。 为了减轻大范围细节标注的需要,弱监督语义分割技术被提出。最常见的一种方式是在训练的时候只提供图片级别的,类别的标注,但其它形式的弱监督也在发展,例如边框标注,人眼路径,自由曲线等,这些方法在训练时只需要很少的标注信息,但是不能在分割时会获得和全监督学习一样得效果 在我们的工作中,我们相比图片级标注增加了一点点时间花费,向更强的语义分割迈出自然的一步。 人类识别目标更自然地方式是使用点标记:“这个猫在这里”(点)或者“这里有什么”(点)。神经学的研究揭示了,人类持续的使用点指向目标。机器人领域和人机交互领域长久的使用点进行有效的沟通,点标记在语义分割中还没有被充分探索。 我们最重要的贡献是一个以点标记为基础的用于分割的弱监督模型。我们对最先进的用于语义分割的卷积神经网络模型进行扩展,将点标记监督信息纳入损失函数中。只需要为每个对象标注一个对应的点,就使分割准确率提升了相当高的等级。我们在PASCALVOC2012数据集上进行了广泛的人工研究,去标记点信息,并统计点标记时间。我们也制作了操作界面并向社区提供。 对点标注一个挥之不去的担心是,这很难拓展到整个目标范围。我们第二个贡献是直接将目标的先验结合到损失函数中,指导训练。这种先验知识有助于将目标从背景中分离,通过提供像素点属于一个目标的概率值。这种先验知识过去被用在分割模型中,产生一系列备选分割区域,用于条件随机场中的一元势。但,我们是最早将他放入损失函数指导cnn训练的。 我们的两种结合使miou提高了12.9%,相比图片级别的信息。

2.相关工作

语义分割的监督信息种类 为了减少标注的时间,最近的研究在尝试使用弱监督训练模型,很多种监督信息的形式被发表,包括人眼轨迹,自由曲线,对象大小对比,heterogeneous annotations。通常的选择是图片级标签和边框。
在标注时间和准确性之间有一个权衡:训练模型中
具有更高级别的监督比弱监督的模型更准确,但它们需要昂贵的人工注释数据集。

语义分割CNNs 最近语义分割上的成功,要归功于为图片中每一个像素点做分类的方法。
交互式分割

3.语义分割方法

点监督信息只在训练的时候提供,训练好的模型只使用原始图片进行分割任务。 一个用于分割的CNN模型,无论是监督还是非监督。这个模型输入尺寸为 W * H的原始图片,输出W*H*N的分数图, N 是 CNN要识别的类别数。在推理时,分数图转变为W*N上每一个像素点的类别,通常使用取最大值或者其他更复杂的后处理方式。 使用不同的监督信息训练模型需要使用适合场景的损失函数,我们将常用的两种损失函数进行了拓展

全监督

(这个是交叉熵,L代表像素点集合,\(s_ik\)是i点k类别的分数, \(S_ik\)是softmax的\(s_ik\)\(G_i\)是i点真实标签的类别)

图片级监督

(这个式子会让图片类别标注中,取存在的类别的分数最大的点的分数变大,取不存在类别的分数最大的点的分数变小)
点标记监督

(是将上边两个式子结合,\(a_i\)在这里是统一的,\(L_s\)是很小一部分被点标记的点)

我们使用很少或者没监督的像素点训练模型的问题是,一个问题是正确的推断目标的空间范围。实际上,弱监督方法倾向于局部极小值:只关注一部分目标对象,或者将所有像素点归为背景。为了缓解这种问题,我们引入了附加的,目标概率的先验项。目标概率提供一个像素点属于任何目标类别的概率。 ,相对于背景来说,这种概率被用于弱监督语义分割模型,称为一元势。


\(P_i\)表示一个点属于一个目标的概率,它不是损失函数,是通过一个函数先验得到的,共有21个类别,20个目标类和一个背景类。当\(p_i\)较高时,会倾向于获得比较高的目标类别分数,相反较低时,会获得高背景分数)

4.标注

点标注耗时 22.1 sec/img , 全像素标注 239.7 sec/img,相差10倍多。

5.实验

实验首先对比了点标注相对于图片级标注的提升,和全监督的对比(表中列2,4,和倒数第三列) 然后做了几个扩展实验,allpoints是每个实例都标注,random annotattors是人工多次标注,random points 是随机取正确的标注点。 值得注意的是,随机取点分数居然要高于其他点标注,这是由于,随机性在正确的前提下,引入了更多信息。

posted @ 2022-11-04 10:46  失败者_ant  阅读(102)  评论(0编辑  收藏  举报