MOTS-多目标跟踪与分割
MOTS: Multi-Object Tracking and Segmentation
11.4.1. MOTS-多目标跟踪与分割概述
1.目标跟踪与分割目标
将目前流行的多目标跟踪任务扩展到多目标跟踪与分割(MOTS)。
为了实现这一目标,使用半自动标注程序为两个现有的跟踪数据集创建密集的像素级标注。新标注包括10870个视频帧中977个不同目标(汽车和行人)的65213个像素掩码。为了进行评估,将现有的多目标跟踪指标扩展到这个新任务中。
此外,提出了一种新的基线方法,该方法通过单个卷积网络联合处理检测、跟踪和分割。在对MOTS标注进行训练时,通过提高性能来展示数据集的价值。数据集、指标和基线将成为开发超越2D边界框的多目标跟踪方法的宝贵资源。在https上提供标注、代码和模型:
近年来,计算机视觉界在越来越困难的任务中取得了重大进展。
深度学习技术现在在目标检测,以及图像和实例分割方面,表现出令人印象深刻的性能。另一方面,跟踪仍然具有挑战性,尤其是当涉及多个目标时。特别是,最近的跟踪评估结果表明,边界框级别的跟踪性能正在饱和。只有当移动到像素级别时,才有可能进行进一步的改进。因此,建议将检测、分割和跟踪这三项任务,视为需要共同考虑的相互关联的问题。
2.可用于训练和评估模型的数据集
例如,分割通常不提供关于视频数据的标注,甚至不提供关于不同图像上的目标身份的信息。另一方面,用于多目标跟踪的通用数据集仅提供目标的边界框标注。这些可能过于粗糙,例如,当目标被部分遮挡,使得它们的边界框包含来自其他目标的信息多于来自它们自己的信息时,如图11-33所示。
图11-33. 分段与边界框。当目标相互经过时,目标边界框的大部分可能属于另一个实例,而每像素分割遮罩可以精确定位目标。所示的标注是来自KITTI MOTS数据集的裁剪。
在这些情况下,目标的逐像素分割导致对场景的更自然的描述,并且可以为后续处理步骤提供附加信息。对于分割掩模,有一个定义明确的真值,而许多不同的(非紧密的)框,可能大致适合一个目标。类似地,与通常需要在评估时,通过启发式匹配程序解决的真值相比,具有重叠边界框的轨迹会产生歧义。
另一方面,基于分割的跟踪结果,根据定义是不重叠的,可以以直接的方式与真值进行比较。
建议将众所周知的多目标跟踪任务扩展到实例分割跟踪。将这项新任务称为多目标跟踪和分割(MOTS)。到目前为止,还没有用于此任务的数据集。虽然文献中有许多边界框跟踪方法,但MOTS需要将时间线索和掩码线索相结合才能成功。因此,提出TrackR-CNN作为一种基线方法,解决了MOTS任务的所有方面。
TrackR-CNN用3D卷积扩展了Mask R-CNN,以合并时间信息,并通过用于随时间链接目标身份的关联头。
本节做出了以下贡献:
1)基于流行的KITTI和MOTChallenge数据集,提供了两个具有时间一致的目标实例分割的新数据集,用于训练和评估处理MOTS任务的方法。
2)提出了一种新的软多目标跟踪和分割精度(sMOTSA)度量,可用于同时评估新任务的各个方面。
3)将TrackR-CNN作为一种基线方法,联合处理检测、跟踪和分割问题,并将其与现有工作进行比较。
4)展示了新数据集在像素级多目标跟踪器端到端训练中的有用性。特别是,展示了使用数据集,分割和跟踪过程的联合训练变得可能,并比仅用于分割或边界框跟踪的训练产生了改进,这在以前是可能的。
11.4.2.相关工作
1.多目标跟踪数据集
在多目标跟踪(MOT)任务中,必须将一组已知类中最初未知数量的目标,作为视频中的边界框进行跟踪。特别是,目标可以随时进出场景,并且必须在长时间遮挡和外部变化后恢复。许多MOT数据集侧重于街道场景,例如KITTI跟踪数据集,其特征是车载摄像头的视频;或者MOTChallenge数据集,从各种不同的角度显示行人。UA-DETRAC还提供街道场景,但仅包含车辆标注。另一个MOT数据集是PathTrack,提供了不同场景中人类轨迹的标注。PoseTrack包含视频中多个人关节位置的标注。这些数据集都没有为标注目标提供分割掩码,因此没有像图1中那样描述复杂的交互足够详细。
2.视频目标分割数据集
在视频目标分割(VOS)任务中,在视频的第一帧中提供一个或多个通用目标的实例分割,并且必须在所有后续帧中以像素精度进行分割。现有的VOS数据集只包含少数目标,这些目标也存在于大多数帧中。此外,该任务的常见评估指标(区域Jaccard索引和边界F-measure)没有考虑跟踪多个目标时,可能发生的错误情况,如id切换。相比之下,MOTS专注于一组预定义的类,并考虑具有许多交互目标的拥挤场景。MOTS还增加了发现和跟踪场景中出现和消失的不同数量新目标的难度。
VOS任务的数据集包括DAVIS 2016数据集和DAVIS 2017数据集,前者侧重于单目标VOS,后者扩展了多目标VOS的任务。此外,YouTube VOS数据集是可用的,比DAVIS大几个数量级。此外,Segtracv2数据集、FBMS和YouTube目标数据集的标注子集,可用于评估此任务。
视频实例分割数据集。Cityscapes、BDD和ApoloScape为汽车场景提供视频数据。然而,实例标注仅提供给不相邻帧的一小部分,或者在ApoloScape的情况下,提供给每个帧,但随着时间的推移没有目标标识。因此,不能用于像素级跟踪方法的端到端训练。
3.方法
虽然对为MOT或VOS任务提出的方法的全面审查不在本节的范围内,但将审查一些已经处理(子集)MOTS任务,或以其他方式与TrackR-CNN相关的工作。
Seguin等人使用超像素级别的聚类,从给定的边界框轨迹中导出实例分割,但它们没有解决检测或跟踪问题。Milan等人考虑在CRF中利用超像素信息和给定的目标检测来联合跟踪和分割。与这两种方法相反,提出的基线是在像素级,而不是超像素级上操作的。CAMOT使用立体信息,对KITTI数据集上的通用目标,进行基于掩码的跟踪,这限制了其对远处目标的准确性。
CDTS执行无监督的VOS,即不使用第一帧信息。只考虑目标很少出现和消失的短视频剪辑。然而,在MOTS中,许多目标经常进出拥挤的场景。虽然上述方法能够产生具有分割掩码的跟踪输出,但由于不存在具有MOTS标注的数据集,因此,无法全面评估其性能。
Lu等人通过聚合每帧的位置和外部特征,并使用LSTM跨时间组合这些特征来解决跟踪问题。Sadeghian等人还使用LSTM的组合,将通过裁剪检测获得的外部特征与速度和交互信息相结合。在这两种情况下,组合的特征都被输入到传统的匈牙利匹配过程中。对于基线模型,使用时间信息直接丰富检测,并与检测器联合学习关联特征,而不仅仅是对给定的检测进行后处理。
4.半自动标注
有许多半自动实例分割的方法,例如从涂鸦或点击中生成分割掩码。这些方法需要用户输入每个要分割的目标,而标注过程可以完全自动地分割许多目标,让标注器专注于改善困难情况下的结果。虽然这在某种程度上类似于主动学习设置,但将标注哪些目标的决定留给人工标注器,以确保所有标注都达到长期基准数据集所需的质量。
其他半自动标注技术包括Polygon RNN,自动预测多边形形式的分割,标注器可以从多边形中校正顶点。流标注允许标注器操作Mask RCNN预测的片段,以便对完整图像进行标注。虽然加快了孤立帧中目标的分割掩码的创建,但这些方法不在轨迹级别上操作,不利用现有的边界框标注,也不利用已在其他视频帧中为同一目标标注的分割掩码。
为了保持标注工作的可管理性,提出了一种通过分割掩码扩展边界框级标注的半自动方法。使用卷积网络,从边界框自动生成分割掩码,然后使用手动多边形标注进行校正。对于每个轨迹,使用手动标注作为额外的训练数据来微调初始网络。迭代生成和校正掩码的过程,直到达到所有标注掩码的像素级精度。
为了将边界框转换为分割掩码,使用了一个基于DeepLabv3+的全卷积细化网络,该网络将边界框指定的输入图像的裁剪作为输入,并添加了一个小的上下文区域,以及一个将边界框编码为掩码的附加输入通道。基于这些线索,细化网络预测给定盒子的分割掩码。细化网络在COCO和Mapillary上进行预训练,然后在手动创建的目标数据集分割掩码上进行训练。
一开始,在所考虑的数据集中为每个目标标注(作为多边形)两个分割掩码。首先在所有手动创建的掩码上训练细化网络,然后对每个目标单独进行微调。然后,使用网络的这些微调变体,来为数据集中各个目标的所有边界框生成分割掩码。通过这种方式,网络适应每个单独目标的外部和上下文。为每个目标使用两个手动标注的分割掩码来微调细化网络,已经为目标在其他帧中的外部产生了相对良好的掩码,但通常仍然存在小误差。因此,手动更正一些有缺陷的生成掩码,并在迭代过程中重新运行训练过程。标注器还纠正了原始MOT数据集中不精确或错误的边界框标注。
5.KITTI MOTS
对来自KITTI跟踪数据集的边界框级标注,执行了上述标注过程。标注示例如图11-34所示。
图11-34. 标注的示例图像。KITTI MOTS(上)和MOTSChallenge(下)
为了便于训练和评估,将KITTI跟踪数据集2的21个训练序列分别划分为训练集和验证集3。划分平衡了每个类别(汽车和行人)在训练和验证集中的出现次数,大致相等。统计数据见表11-1。
表11-1. 引入的KITTI MOTS和MOTSChallenge数据集的统计数据。在两个数据集中都考虑了行人,在KITTI MOTS中也考虑了汽车。
所需的手动标注的数量相对较高,这表明现有的单图像实例分割技术在这项任务上仍然表现不佳。这是提出的MOTS数据集的主要动机,该数据集允许将时间推理结合到实例分割模型中。
6.MOTS挑战
进一步标注了MOTChallenge 2017训练数据集4的7个序列中的4个,并获得了MOTSChallenge数据集。MOTSChallenge专注于拥挤场景中的行人,由于许多遮挡情况,因此非常具有挑战性,像素描述尤其有益。标注示例如图11-34所示,统计数据如表11-1所示。
11.4.4.评价措施
作为评估措施,将公认的CLEAR MOT指标用于多目标跟踪,以适应任务。对于MOTS任务,每个目标的分割掩码需要包含在评估度量中。受泛光学分割任务的启发,要求目标的真实掩模和MOTS方法产生的掩模都是不重叠的,即每个像素最多可以分配给一个目标。
现在介绍对MOTS的评估措施。
形式上,具有T个时间帧、高度h和宽度w的视频的真值,由一组N个非空真值像素掩码
组成,其中,
每个掩码属于相应的时间帧
,并被分配一个真值轨道
。MOTS方法的输出是一组K个非空假设掩码
,其中
,每个掩码被分配一个假设轨道
和一个时间帧
。
CLEAR MOT度量的一个重要步骤是建立真值目标和跟踪器假设之间的对应关系。在基于边界框的设置中,建立对应关系是不平凡的,并且是通过二分匹配来执行的,因为真值框可能重叠,并且多个假设框可以很好地适应给定的真值框。在MOTS的情况下,建立对应关系被大大简化,因为要求每个像素分别唯一地分配给真值和假设中的最多一个目标。因此,对于给定的真值掩码,至多一个预测掩码可以具有大于0.5的并集交集(IoU)。因此,映射使用
基于掩码的IoU,可以简单地将从假设掩码到基本真值掩码的定义为
真阳性的集合
由映射到地面真值掩码的假设掩码组成。类似地,假阳性是未映射到任何真值掩码的假设掩码,即
。最后,集合
的假阴性,包含不被任何假设的掩码覆盖的真值掩码。
设
表示真值掩码的最新跟踪的前体,或者如果不存在跟踪的后目标,则表示
。因此,
是具有相同
和最大
的掩码
,使得
。id开关的集合IDS然后被定义为其前身被用不同的id跟踪的真值掩码的集合。形式上,
基于掩码的评估措施。此外,定义了真阳性数量的软版本
给定前面的定义,定义了原始CLEAR MOT度量的基于掩码的变体。提出了多目标跟踪和分段精度(MOTSA)作为基于框的MOTA度量的基于掩码IoU的版本,即
。
以及基于掩模的多目标跟踪和分割精度(MOTSP)为
最后,介绍了软多目标跟踪和分割精度(sMOTSA)
其累积真阳性的软数量
,而不是计数有多少个掩模达到大于0.5的IoU。sMOTSA因此测量分割以及检测和跟踪质量。
11.4.5.方法
为了与神经网络联合解决检测、跟踪和分割问题,即MOTS任务,建立在流行的Mask R-CNN架构的基础上,该架构扩展了带有掩码头的Faster R-CNN检测器。提出了TrackR-CNN(见图11-35),它又通过关联头和两个3D卷积层扩展了Mask R-CNN,以便能够随着时间的推移关联检测并处理时间动态。TrackR-CNN提供基于掩码的检测以及关联特征。两者都被输入到跟踪算法,该算法决定选择哪些检测以及如何随着时间的推移将它们链接起来。
图11-35. TrackR-CNN概述。通过3D卷积扩展Mask R-CNN,以合并时间上下文,并通过为每次检测生成关联向量的关联头。关联向量之间的欧几里得距离,用于将随时间的检测关联到轨迹中。与Mask R-CNN的差异以黄色突出显示。
1.整合时间上下文
为了利用输入视频的时间上下文,将3D卷积(其中额外的第三维度是时间)集成到ResNet-101主干之上的Mask R-CNN中。将3D卷积应用于骨干特征,以便利用时间上下文来增强。这些增强的特征随后被区域建议网络(RPN)使用。作为替代方案,还考虑卷积LSTM层。卷积LSTM通过使用卷积而不是矩阵乘积计算其激活来保留输入的空间结构。
2.联合头
为了能够随着时间的推移将检测关联起来,通过关联头来扩展Mask R-CNN,该关联头是一个完全连接的层,它获得区域建议作为输入,并预测每个建议的关联向量。关联头的灵感来源于行人重新识别中使用的嵌入向量。每个关联向量表示汽车或人的身份。它们的训练方式是,属于同一实例的向量彼此靠近,而属于不同实例的向量则彼此远离。将两个关联向量v和w之间的距离d(v,w)定义为它们的欧几里得距离,即
。
使用Hermans等人提出的批量硬三元组损失来训练关联头,适用于视频序列。这种损失对每个检测的硬阳性和硬阴性进行采样。形式上,设
表示视频的检测集合。每个检测
由来自时间帧
的掩码
和关联向量
组成,并被分配由其与真值目标的重叠确定的真值轨道
。
对于T个时间步长的视频序列,具有裕度α的批量硬配方中的关联损失由下式给出
3.掩码传播
基于掩模的IoU与光流变形一起是随着时间的推移关联像素掩模的有力提示。因此,还试验了掩码变形作为关联向量相似性的替代线索。对于在时间t−1具有掩码maskd的检测
和在时间t具有掩码
的检测
,将掩码传播得分定义为
其中W(m)表示通过帧t-1和t之间的光流向前翘曲掩模m。
4.跟踪
为了产生最终结果,仍然需要决定报告哪些检测,以及如何随着时间的推移将它们链接到轨迹中。为此,根据现有轨道与该轨道中最近检测的关联向量相似性,用新的检测来扩展现有轨道。
更准确地说,对于每个类别和每个帧t,使用公式中的关联向量距离,将当前帧处具有大于阈值γ的检测器置信度的检测,与在先前帧中选择的检测连接在一起。只对过去高达β帧阈值的轨迹选择最新的检测。
匹配是用匈牙利算法完成的,同时只允许距离小于阈值δ的成对检测。最后,所有未分配的高置信度检测开始新的轨迹。
由此产生的轨道可能包含重叠的掩码,这是在MOTS任务中不允许。在这种情况下,属于具有较高置信度的检测(由网络的分类头给出)的像素优先于具有较低置信度的探测。
11.4.6.实验
1.实验设置
对于Mask R-CNN,使用ResNet101主干,并在COCO和Mapillary上对其进行预训练。然后,通过添加关联头并集成两个深度可分离的3D卷积层来构建TrackR-CNN,每个卷积层具有3×3×3个滤波器核(两个维度是空间的,第三个维度是随时间的)、ReLU激活和骨干和区域建议网络之间的1024个特征图。将3D卷积初始化为单位函数,之后应用ReLU。当使用卷积LSTM时,随机初始化权重,并添加跳跃连接,以在训练的初始步骤期间,保留后续层的预训练权重的激活。
然后,使用Adam优化器,在目标数据集(即KITTI MOTS或MOTSChallenge)上对TrackR-CNN进行40个时期的训练,学习率为
。在训练过程中,使用由单个视频的8个相邻帧组成的小批量,其中8是使用Titan X(Pascal)显卡放入内存的最大可能帧数。在批处理边界处,3D卷积层的输入在时间上被零填充。当使用卷积LSTM时,在训练期间通过所有8个帧反向传播梯度,并且在测试时,在整个序列上传播循环状态。由关联头产生的向量具有128个维度,并且公式中定义的关联损失是在一批中获得的检测上计算的。
选择了α=0.2的裕度,这被证明是有用的。对于掩模传播实验,使用PWC-Net计算所有相邻帧对之间的光流。整个跟踪器在测试时达到了每秒2帧左右的速度。
当使用卷积LSTM时,它在线运行,当以接近在线的方式使用3D卷积时,由于两个帧超前于3D卷积。
在目标训练集上分别调整跟踪系统的阈值(δ、β、γ),每个实验使用1000次迭代进行随机搜索。
2.主要结果
表11-2显示了对KITTI MOTS验证集的结果。取得了具有竞争力的结果,超过了几个基线。Mask R-CNN+maskprop表示一个简单的基线,在KITTI MOTS训练集的帧上对COCO和Mapillary预训练的Mask R-CNN进行了微调。然后,在验证集上对其进行评估,并使用掩模传播分数将基于掩模的检测与时间联系起来。与该基线相比,TrackR-CNN获得了更高的sMOTSA和MOTSA分数,这意味着3D卷积层和关联头有助于识别视频中的目标。MOTSP得分保持相似。
表11-2. KITTI MOTS的结果+MG表示具有KITTI MOTS微调掩模R-CNN的掩模生成。BeyondPixels是一种最先进的汽车MOT方法,使用了与其他方法不同的检测器。
TrackR-CNN(box orig)表示在KITTI的原始边界框标注上在没有掩码头的情况下训练的模型的一个版本。
然后,根据训练分割上的原始KITTI跟踪标注来调整MOTA分数。在MOTS设置中通过添加分割掩模作为后处理步骤(用+MG表示),使用KITTI微调掩模R-CNN的掩模头来评估该基线。该设置的sMOTSA和MOTSA得分比方法和之前的基线更差,尤其是在考虑行人时,这增加了观察结果,即非紧密边界框不是跟踪的理想线索,并且简单地在边界框预测之上使用实例分割方法不足以解决MOTS任务。在图11-36中显示了该基线的定性结果。基于盒子的模型经常混淆相似的遮挡目标,导致丢失掩码和id开关。相反,模型假设了一致的掩码。
图11-36. KITTI MOTS的定性结果。(a) +(c)TrackR-CNN模型对KITTI MOTS的验证序列进行了评估。(b) +(d)TrackR-CNN(box orig)+MG在相同序列上评估。在数据上戴上掩码进行训练可以避免类似的近身物体之间的混淆。
为了表明如上所述添加分割掩码不会带来不公平(dis)优势,还使用掩码R-CNN掩码头来替换方法(TrackR-CNN()+MG)生成的掩码。结果大致相似,因此不会产生重大(不利)优势。
总之,基线实验表明,在视频的时间一致的实例分割数据上进行训练,比在没有时间信息的实例分割数据上进行训练,以及仅在边界框跟踪数据上进行训练都有优势。以前不可能对两者进行联合训练,这突出了提出的MOTS数据集的有用性。
CAMOT是一种基于掩模的跟踪器,可以使用KITTI中立体设置的3D信息来跟踪预定义类的目标和通用目标。在原始版本中,CAMOT将SharpMask中的通用目标建议作为输入。为了更好的可比性,使用TrackR-CNN的检测结果(通过将其作为无关联的正常检测器运行而获得)作为输入。请注意,CAMOT只能跟踪立体声深度可用的区域,这限制了它的调用。结果表明,当使用相同的输入检测集时,提出的跟踪方法的性能明显优于CAMOT。
由于源代码可用的基于掩模的跟踪器不多,还考虑了基于边界框的跟踪方法CIWT和BeyondPixels,并再次使用KITTI微调的mask R-CNN掩模头,将其结果转换为分割掩模。
请注意,这些方法经过了调整,在最初基于边界框的任务中表现良好。
CIWT将基于图像的信息与来自立体的3D信息相结合,用于在图像和世界空间中联合跟踪。再次使用TrackR-CNN的检测结果进行比较。提出的跟踪系统联合处理跟踪和掩码生成,在事后生成掩码时比CIWT性能更好。
BeyondPixels是原始KITTI跟踪数据集上最强的汽车跟踪方法之一。它将外部信息与三维提示相结合。无法用检测运行他们的方法,因为他们提取外部特征的代码不可用。相反,使用了原始检测,这些检测是从RRC(一种非常强大的检测器)获得的。
RRC特别在KITTI上实现了精确定位,而更传统的Mask R-CNN检测器是为通用目标检测而设计的。由此产生的sMOTSA和MOTSA得分高于方法,但仍然表明,当使用Mask R-CNN简单地分割方框时,MOTS上最先进的边界框跟踪方法存在局限性。
1.MOTS使用真值箱
为了进行比较,基于边界框真值导出了分割结果,并在新标注上对其进行了评估。在这里,考虑真值的两种变体:来自KITTI(orig)的原始边界框,它们是阿莫达尔的,即如果只有人的上半身可见,则框仍将延伸到地面,以及来自分割掩码的紧密边界框(紧密)。再次,使用KITTI MOTS微调的Mask R-CNN生成掩码。
研究结果表明,即使有完美的轨迹假设,生成准确的掩码仍然具有挑战性,尤其是对行人来说。使用amodal框时更是如此,它通常包含不显示目标的大区域。这进一步验证了说法,即MOT任务可以从像素评估中受益。在补充材料中可以找到进一步的基线,用矩形或椭圆填充真值框。
2.时间成分
在表11-3中,比较了TrackR-CNN的时间分量的不同变体。1xConv3D和2xConv3D意味着在主干和区域建议网络之间使用一个或堆叠两个深度可分离的3D卷积层,每个卷积层具有1024个维度。类似地,1xConvLSTM和2xConvLSTM表示在同一阶段的一个或两个堆叠的卷积LSTM层,每个层具有128个特征通道。由于普选,卷积LSTM中每个特征信道的参数数量更高。在最初的实验中,使用更多的特征通道似乎没有帮助。最后,None表示不添加任何附加层作为时间分量。与None基线相比,添加两个3D卷积显著提高了行人的sMOTSA和MOTSA得分,而汽车的性能仍然相当。令人惊讶的是,使用卷积LSTM在基线上没有产生任何显著的增益。
表11-3. TrackRCNN的不同时间分量。KITTI MOTS的结果比较。
关联机制。在表11-4中,比较了用于检测之间关联的不同机制。
每条线都遵循所解释的拟议跟踪系统,但匈牙利匹配步骤使用不同的分数。当使用关联头时,关联向量可以与过去多达β帧的检测相匹配。对于其余的关联机制,仅相邻帧之间的匹配是合理的。
表11-4. TrackRCNN的不同关联机制。KITTI MOTS的结果比较。
对于掩码IoU,仅使用等式9中的掩码传播分数,这降低了sMOTSA和MOTSA分数。这突出了关联头的有用性,它可以优于使用单个神经网络提供的嵌入的基于光流的提示。在这里,还尝试在没有关联损失的情况下进行训练(Mask IoU(训练w/o assoc.)),这会使MOTSA得分进一步下降。因此,关联损失对检测器本身也有积极影响。
令人惊讶的是,使用边界框IoU(其中框被变形为框内光流值的中值,Bbox-IoU)执行与掩模IoU几乎相同的操作。最后,仅使用边界框中心(Bbox-Center)的距离进行关联,即进行最近邻居搜索,会显著降低性能。
3.MOTS挑战
表11-5显示了在MOTSChallenge数据集上的结果。由于MOTSChallenge只有四个视频序列,以一个遗漏的方式训练了方法(TrackR-CNN())(用训练过的模型评估每个序列,并对其他三个序列进行调整)。
表11-5.MOTS挑战的结果+MG表示具有域精细调谐的掩码R-CNN的掩码生成。
为了进行比较,采用了在MOT17基准测试中表现良好的四种方法的预计算结果,并使用对MOTSChallenge进行微调的Mask R-CNN生成了掩模(以省略一个的方式),以在数据中对其进行评估。注意到,所有四组结果都使用SDP生成的最强公共检测集,而TrackR-CNN生成自己的检测。也不清楚这些方法在MOTSChallenge的基础上经过了多少训练,才能在MOTChallenge训练集中表现良好。尽管有这些可能性,TrackR-CNN的性能优于所有其他方法。最后一行表明,即使有严格的真值边界框,包括随着时间的推移的轨迹信息,准确分割所有行人仍然很困难。
11.4.7.小结
到目前为止,还没有基准或数据集来评估多目标跟踪和分割的任务,也没有使用这种时间一致的基于掩模的跟踪信息来直接训练方法。为了缓解这个问题,在现有MOT数据集的基础上引入了两个新的数据集,使用半自动标注程序对其进行了标注。进一步介绍了MOTSA和sMOTSA度量,基于常用的MOTA度量,但适用于评估基于掩码的跟踪的所有方面。最终开发了一个基线模型,旨在利用这些数据。通过对数据进行训练,该方法能够优于仅使用边界框轨迹和单图像实例分割掩码进行训练的可比方法。新数据集现在使这种联合训练成为可能,这为未来的研究开辟了许多机会。
参考文献链接
https://arxiv.org/pdf/1902.03604.pdf
MOTS: Multi-Object Tracking and Segmentation