跟踪到重建和重建到跟踪
跟踪到重建和重建到跟踪
https://arxiv.org/pdf/1910.00130.pdf
摘要——对象跟踪和三维重建通常是一起进行的,跟踪被用作重建的输入。然而,所获得的重建也提供了用于改进跟踪的有用信息。提出了一种新的方法来闭合这个环路,先跟踪重建,然后重建跟踪。方法,MOTSFusion(多对象跟踪、分割和动态对象融合),利用从动态对象重建中提取的3D运动来跟踪长时间完全遮挡的对象,并恢复丢失的检测。方法首先使用2D光流构建短跟踪,然后将这些跟踪融合到动态3D对象重建中。这些重建的精确3D对象运动用于通过遮挡将跟踪合并为长期跟踪,并在检测缺失时定位对象。
在KITTI上,基于重建的跟踪将初始跟踪的ID切换数量减少了50%以上,并且在边界框和分割跟踪方面都优于以前的所有方法。
I.简介
多对象跟踪(MOT)的任务是定位视频中的对象,并分配一致的ID,以便始终为同一对象的每个实例提供相同的ID。
这项任务对于自动驾驶汽车和移动机器人等需要了解动态物体的存在、位置和运动的应用至关重要。MOT方法需要在对象连续存在的帧中以及在对象由于遮挡而不可见的长时间内跟踪对象。
当前的许多MOT方法都集中在第一部分,当对象始终可见时,成功地跟踪对象,但无法通过消失和遮挡长期跟踪对象,当对象重新出现时,为其分配不正确的ID。
然而,准确的长期跟踪对于将复杂场景理解到完全自主系统所需的水平至关重要。
为了解决长期跟踪问题,建议使用动态三维重建来估计物体的三维运动。使用该运动信息,可以通过遮挡来跟踪对象并恢复丢失的检测,从而大大改善长期跟踪结果。算法MOTSFusion(多对象跟踪、分割和动态对象融合),关闭跟踪重建循环,从跟踪构建重建,然后使用这些重建改进跟踪。基于重建的跟踪示例如图1所示。
MOTSFusion由两级管道组成。首先,通过计算每次检测的分割掩模并在光流定义的扭曲下测量这些掩模的一致性,将检测关联到图像域中的短时空一致性跟踪中。在第二阶段,使用相机自运动和每像素深度估计将这些跟踪投影到全局3D域中。
对于每个跟踪,计算一组同质变换,将每个时间步长的对象表示对齐为动态重建,定义对象的精确3D运动。其可视化结果如图2所示。外推每个跟踪的3D跟踪,并通过测量估计的3D跟踪的一致性将跟踪合并为长期对象跟踪。这能够桥接长时间的遮挡和缺失检测。
最后,使用估计的跟踪来填充缺失的检测和分割掩码。
MOTSFusion由两级管道组成。首先,通过计算每次检测的分割掩模并在光流定义的扭曲下测量这些掩模的一致性,将检测关联到图像域中的短时空一致性跟踪中。在第二阶段,使用相机自运动和每像素深度估计将这些跟踪投影到全局3D域中。
对于每个跟踪,计算一组同质变换,将每个时间步长的对象表示对齐为动态重建,定义对象的精确3D运动。其可视化结果如图2所示。外推每个跟踪的3D跟踪,并通过测量估计的3D跟踪的一致性将跟踪合并为长期对象跟踪。这能够桥接长时间的遮挡和缺失检测。
最后,使用估计的跟踪来填充缺失的检测和分割掩码。
图1. 基于动态三维重建的跟踪的定性结果。顶部:全局场景重建,使用世界坐标中每个对象跟踪的3D边界框。底部:动态对象重建结果,针对顶部图像中的三个对象跟踪。
与最初的2D跟踪结果相比,长期跟踪能够将ID切换的数量减少约50%。此外,与之前使用相同检测集的最佳竞争方法相比,方法的ID切换减少了60%至70%。这表明,方法成功地创建了即使在遮挡时也保持一致的长期跟踪,这对自动驾驶汽车等许多应用至关重要。介绍了MOTSFusion的几个版本,表明它可以适用于在线或离线工作,并使用激光雷达、立体或单目深度输入。作出以下贡献。
(i) 提出了一种新的长期跟踪管道,该管道使用动态3D对象重建来合并长时间遮挡的跟踪。
(ii)提出了一种基于从3D重建获得的物体的3D运动来恢复物体的错过检测的方法。
(iii)提出了一个彻底的实验评估,验证了基于重建的跟踪的有效性。
图2. 用于跟踪的动态三维重建的定性结果。对于每个对象,正确的可视化显示世界空间中给定跟踪中的每个3D点。左边的可视化显示了当将这些点中的每一个映射到由同质运动变换定义的以物体为中心的空间中时获得的3D重建。一组tracklet遮罩中的每一点都出现在这两个可视化中。
III、 方法
MOTSFusion建立在四个关键思想之上。
(i) 可以使用从分割掩模和光流获得的2D运动一致性来构建精确的短跟踪。当对象连续可见时,这会产生高度精确的短跟踪。(ii)对于经历刚体变换的对象,存在一组这样的变换,其将该对象从每个时间步长的所有点云融合为一致的3D重建,并且这些变换定义了该对象的3D运动。
(iii)即使对于非刚性物体,如果以稳健的方式计算最佳拟合的刚体变换,这也会导致3D运动估计,其足够精确以确定物体的整体3D运动。
(iv)两个小跟踪的估计的3D运动之间的一致性包含足够的信息来确定这些小跟踪是否属于同一对象并且应该合并到一个更长的跟踪中。
二、相关工作
通过检测进行跟踪。多目标跟踪(MOT)已经被许多方法所解决。这项工作建立在许多成功的方法的基础上,这些方法遵循了逐检测追踪的范式。这种方法可以通过如何执行数据关联以及哪些特征用于关联来区分。通过网络流、多假设跟踪、二次伪布尔优化和条件随机场等方法对MOT的数据关联进行了研究。先前的方法已经利用2D运动一致性、3D运动一致性和视觉嵌入相似性作为执行关联的特征。
分层2D/3D跟踪。对于数据关联,采用了分层的tracklet创建和合并方法,他们已经证明了这种多阶段的方法可以成功地执行跟踪。与之前的这些方法相反,将在每个阶段分离哪些特征用于关联。
首先,仅使用2D运动一致性来创建跟踪集,然后仅使用3D运动一致性进行跟踪集合并。以前的方法已经使用视觉相似性的外观模型进行长期跟踪。仅依靠2D和3D运动一致性,表明运动线索足以在不利用视觉相似性的情况下进行长期跟踪。
细分跟踪。最近已经利用分割掩模来改进跟踪并创建像素精确的跟踪结果。这些通常使用光流或场景流来对每个像素的运动进行建模。采用这两种技术,即在对象遮罩内使用光流和场景流来确定2D和3D中的运动一致性。超越了这些方法,并使用对象遮罩内的每像素深度值来随着时间的推移创建3D对象重建。
3D跟踪。产生3D跟踪结果对机器人和自动驾驶汽车来说是非常宝贵的。在这一领域进行了大量的研究。大多数方法使用3D边界框进行跟踪,并依赖于简单的运动提示,如平均场景流矢量。一些方法试图通过确定对象在帧之间的精确变换来跟踪3D中的对象重建。方法遵循类似的想法,但与之前使用ICP等技术对齐点云的方法不同,方法能够直接优化对应关系由光流给出的点的对齐。
动态对象重建。动态对象重建与MOT密切相关,因为要进行重建,首先需要进行跟踪。许多方法已经完成了这项任务。与这些方法相比,方法闭合了循环;使用这些重建来进一步改进跟踪。
III、方法
MOTSFusion建立在四个关键思想之上。
(i) 可以使用从分割掩模和光流获得的2D运动一致性来构建精确的短跟踪。当对象连续可见时,这会产生高度精确的短跟踪。(ii)对于经历刚体变换的对象,存在一组这样的变换,其将该对象从每个时间步长的所有点云融合为一致的3D重建,并且这些变换定义了该对象的3D运动。
(iii)即使对于非刚性物体,如果以稳健的方式计算最佳拟合的刚体变换,这也会导致3D运动估计,其足够精确以确定物体的整体3D运动。
(iv)两个小跟踪的估计的3D运动之间的一致性包含足够的信息来确定这些小跟踪是否属于同一对象并且应该合并到一个更长的跟踪中。
根据这些想法,开发了MOTSFusion(如图3所示),这是一种两阶段算法,首先使用光流扭曲下分割掩模的2D运动一致性创建短跟踪,然后使用深度和自运动估计将这些跟踪融合为一致的动态3D对象重建。然后,使用这些重建所需的变换来估计对象跟踪的3D运动,如果它们经历一致的3D运动则将它们合并为更长的跟踪,并使用外推的位置来填充它们缺失的检测。MOTSFusion同时作为图像空间分割掩模和世界空间3D对象重建来跟踪对象。3D合并和插值的示例如图4所示。许多3D对象重建结果如图2所示。
图3. 拟议MOTSFusion方法概述。给定一组自动驾驶应用程序的典型输入,方法在两阶段流水线中执行跟踪。使用来自光流和分割掩模的2D图像空间运动一致性来形成第一跟踪。其次,使用3D世界空间运动一致性将跟踪合并为准确的长期跟踪,同时恢复错过的检测。这是通过计算精确的3D变换来执行的,这些变换导致每个对象的动态3D对象重建。
跟踪输入。MOTSFusion使用视频帧作为输入,以及每帧自运动和深度估计。对于主要实验,使用立体深度(DispNet3)和SLAM算法的自运动(ORB-SLAM2)。然而,MOTSFusion被设计用于任何可用的深度估计(立体声、激光雷达、雷达、SfM或单目)和自运动估计(SLAM、GPS、IMU)。
还展示了使用激光雷达和单图像深度估计时的结果。对于对象检测,使用递归滚动卷积(RRC)检测器和Track R-CNN。使用从获得的光流。
将框绑定到分段掩码。最初估计每个边界框检测的分割掩码。
使用一个完全卷积的神经网络,称之为BB2SegNet。这将边界框给出的图像区域裁剪并调整大小为385×385块,并为每个框输出分割掩码。
2D Tracklet生成。通过使用这些像素处的光流值将每个分割掩模的像素扭曲到下一帧中来生成跟踪。计算这些扭曲掩码的IoU(并集上的交集)和下一帧中的分割掩码集,以创建关联相似性。使用Hungarian算法将遮罩分配给先前存在的跟踪。所有未合并到以前的跟踪中的遮罩都将开始新的跟踪。
合并掩码需要最小IoU阈值。4D场景重建。为了获得3D对象运动,需要在公共世界帧中的每个时间步长中每个对象的3D位置。对于世界帧,使用相机在第一帧中的位置,并使用深度dt、相机内部函数
和相机位置矩阵
(累积的自相机位置随时间的齐次变换矩阵)创建场景的4D(3D+时间)点云,方程如下:
其中
是在时间t的像素位置,
是与当前相机帧中的像素
相对应的3D点,并且
是世界帧中的3D点。这种4D场景重建用于估计独立于自相机运动的物体的运动,并用于可视化3D跟踪(图1)。
动态三维对象融合。计算一组刚体变换,这些变换在每个时间步长中将对象跟踪的3D点集扭曲为一致的3D对象重建。拟合从时间t的像素掩模内的世界空间点到时间t+1的同一跟踪的像素掩膜内世界空间点的齐次变换。该变换在所有时间步长上累积,以便将对象跟踪集中的所有点扭曲为一致的3D重建。
为了最大限度地减少不正确的深度估计和对象掩码的影响,通过使用每个点p及其k个最近邻居
的局部可达性密度
计算局部异常因子
来过滤用于拟合变换的3D点集。局部可达性密度使用可达性距离
,该可达性距离由两点p和q之间的Minkowski距离
和q的k距离
定义,该k距离是q的k个最近邻居的Minko夫斯基距离的最大值,如下所示:
使用每个点的局部可达性距离,可以通过以下方式计算局部异常因子:
随后,过滤出
高于所有点的中值
的点。对于时间t和t+1处的剩余3D点,使用光流矢量来关联两个时间步长之间的点。进一步将这些点过滤为仅在两个时间步长之间存在对应关系的点。然后,在掩模上对最多200个对应点进行采样。
在这些点上,通过最小化两个点云中每对对应点之间的L2距离来执行非线性最小二乘优化,以确定最佳对准两个3D点云的齐次变换。将此变换限制为3-DoF齐次变换(X和Z平移,以及围绕地平面法线的旋转)。这种简化对于KITTI是有效的,因为地平面是近似平坦的。
用
对三维刚性运动进行参数化,这是
与相关的李代数,它是该运动的最小表示。此变换提供对象在世界坐标中的时间步长之间的精确对齐(运动)。对于每个跟踪,计算所有相邻帧对的变换,并累积变换,将每个时间步长的点云合并为一致的以对象为中心的参考帧中的一个3D重建。结果如图2所示,其中很明显变换是准确的,
即使在许多时间步长上累积,甚至对于经历非刚性变换的对象也是如此。
3D Tracklet合并。通过分析跟踪在对象融合给出的运动下的3D一致性来合并跟踪。检查了一个终止的小跟踪的合并候选者,最多N帧超出了终止的小跟踪的时间范围。
图4. 3D小跟踪合并和缺失检测填充示例顶部:初始2D边界框检测(红色)和基于分割的小跟踪结果。中间:在两个跟踪之间插值的3D边界框的结果,显示了两个跟踪在没有检测的情况下通过帧的3D运动的时间一致性。底部:原始2D边界框检测(红色)和新插值的2D边界框(绿色)以及填充的分割遮罩和合并的跟踪ID。
将“可信运动区域”(TMR)定义为最接近跟踪集末端的连续运动变换的集合,这些变换都低于残差阈值(至少连续需要两个变换)。将TMR中的每个变换
从全局坐标映射到以当前对象中心p为中心的对象中心坐标
,如下所示:
这种以物体为中心的运动参数化ξξ编码与原始ξ相同的变换,但现在以运动物体中心为中心。这使能够对这些变换进行有意义的平均,并将其外推到未来,始终相对于当前的对象中心估计。不可能在全局坐标中对齐次变换进行有意义的平均或外推,它们必须首先转换到以对象为中心的坐标系中。
使用滤波后的3D点集的中值位置作为对象中心p。还通过立体估计对对象位置的不确定性进行建模。使用多元正态分布对每个时间步长的对象位置进行建模。平均值为p,协方差∑使用以下公式获得:
其中
,分别是左和右相机投影矩阵的雅可比矩阵(在p处评估)。
矩阵
模型像素测量的不确定性,其中
和
均设置为0。
两个跟踪之间的3D运动一致性是通过使用TMR的平均相对变换将两个跟踪朝向彼此的3D运动外推到两个跟踪的TMR之间的所有时间步长来计算的,包括早期TMR的最后一帧和后者的第一帧。根据这些3D位置估计及其不确定性,两个跟踪的3D运动一致性由这些3D位置估算的平均Mahalanobis距离给出,该距离由它们各自的协方差∑的不确定性加权(等式7)。如果由于缺乏TMR而不能稳健地估计一个跟踪的外推运动,则通过仅将一个跟踪外推到另一个跟踪并计算没有运动估计的跟踪的最后一帧的时间步长中的一致性来确定3D运动一致性。
如果两个小跟踪都不具有鲁棒的运动估计,则假设这两个跟踪都是静止的。如果两个跟踪之间的3D运动一致性超过阈值,则合并它们。
丢失检测恢复。对于两个合并的跟踪之间的每一帧,希望确定对象是否可见并且检测失败,或者它是否实际上被完全遮挡。首先估计每个帧的3D边界框。使用p作为边界框中心,并假设行人和汽车的固定尺寸由KITTI 3D检测训练集中的3D边界框的平均宽度/高度/长度给定。这简化了3D边界框估计,并导致用于产生分割的充分定位。
如果对象经历显著运动,将边界框方向θ设置为运动方向。否则,将θ设置为当前时间步长中对象中所有3D点的鸟瞰图中具有最大特征值的特征向量的方向(即最大方差的方向)。3D边界框的示例如图1所示。
将这个3D边界框作为2D边界框投影到图像空间中,并将其与由边界框中所有点的中值光流矢量扭曲的先前帧边界框角进行平均。运行BB2SegNet来获取此框的分段掩码。通过获取新掩模内的点的深度值并使用等式1和等式2将这些点投影回3D世界坐标来检查该分割掩模的有效性。
如果新遮罩的三维点足够靠近三维边界框中心,则遮罩通过一致性检查。此检查确定对象是否已被遮挡,因为如果被遮挡,则属于新遮罩的点将明显位于估计的三维边界框的前面。
这用于填补遗漏的检测,而不会引入许多误报。除了在合并的跟踪之间运行丢失检测恢复外,还在整个跟踪的开始和结束时运行它,在那里将此过程应用于每一帧,直到到达一致性检查失败、对象移出相机视野或到达视频序列结束的帧。
MOTSFusion的在线版本。MOTSFusion在时间上向前和向后外推物体的跟踪,以执行长期跟踪。因此,默认情况下,此方法在脱机设置中工作。然而,这种基于重建的跟踪方法可以适用于在线工作,用于自动驾驶和机器人等应用。为了创建MOTSFusion的在线版本,只需在时间上向前外推物体的跟踪,而不是向前和向后外推。在每个新的时间步长,将当前检测与向前外推的3D跟踪相匹配,而不是匹配向前和向后外推的两个跟踪的跟踪。最后,对于丢失检测恢复,也仅基于前向运动估计来填充当前帧中的丢失检测。初始的2D小跟踪构建步骤始终在线执行。
IV、 实验
数据集。使用KITTI数据集评估MOTSFusion,该数据集包含从移动车辆中捕获的交通场景。使用KITTI跟踪基准来评估在现实世界驾驶场景中对汽车和行人的跟踪结果。此注释已扩展为像素级掩码注释,以评估MOTS任务(多对象跟踪和分割)。
使用官方的KITTI测试服务器以及从中分离出来的验证进行评估。
评估指标。采用CLEARMOT指标,这是KITTI MOT的标准。对于边界框,跟踪方法由MOTA进行排名,它包含三种错误类型:假阳性(FP)、假阴性(FN)和ID切换(IDS)。
对于分割跟踪,采用了一个适用于掩码的版本,其中方法由MOTSA、MOTA的分割版本以及sMOTSA进行排序,后者通过将预测掩码和地面实况掩码的IoU合并到分数中来考虑分割精度。
ID开关的定义在基准测试之间不一致。对于分段,使用来自的IDS版本(也用于MOTChallenge)。对于边界框,将KITTI[10]的原始版本分别表示为IDS(和MOTA),但经常有人指出,该定义不能正确解释ID开关。因此,还使用定义展示了验证集的结果,分别将其标记为IDS*和MOTA*。该定义不仅在ID标签在两个连续帧之间切换时,而且在发生ID切换之间存在间隙(例如遮挡)时,对ID切换进行计数。
分段跟踪:设置比较。在表I中,展示了在KITTI MOTS验证集上用于分割跟踪的MOTSFusion结果。比较了三种不同的检测器组合和分割方法的使用情况。使用的检测和分割与以前的最先进技术进行了公平的比较。还使用了更强的检测器和更强的分割方法,以便与之前添加分割的最先进的边界盒跟踪器进行比较
口罩。还报告了来自分段的检测结果。只在使用来自的检测时评估汽车(因为行人检测不可用)。使用更好的检测和更好的分割确实有利于方法。使用分段代替,汽车的sMOTSA从78.2增加到82.8,行人的sMOTSA从50.1增加到59.4(4.6和9.3个百分点)。使用检测,汽车的sMOTSA又增加了2.9个百分点,从82.8增加到85.7。
分割跟踪:方法消融。在所有五个实验设置中,展示了消融结果,显示了基于3D重建的跟踪如何优于初始跟踪((2D))。在最佳设置中,仅通过基于重建的跟踪合并((无填充)),将汽车的IDS从61减少到31,将行人的IDS从55减少到35(相对改善分别为49%和36%),同时不改变FP和FNs的数量。在所有设置中观察到类似的结果,导致sMOTSA增加了0.4到0.7个百分点。
这是长期跟踪能力的显著提高。在执行缺失检测恢复(Ours)时,将汽车的FNs数量从386减少到364,行人的FNs从814减少到784,而汽车的FPs仅从37略微增加到44,行人的FPs从94略微增加到99。
同样,在所有设置中都观察到了类似的结果,导致sMOTSA进一步增加了0.1到0.6个百分点。
细分跟踪:最先进的比较。表I显示,在验证集上,在sMOTSA中,MOTSFusion在相同的检测和分割下,汽车(78.2对76.2)和行人(50.1对46.8)的检测和分段性能分别优于TrackR-CNN[38]2个百分点,汽车和行人的IDS分别减少了61%(36对93)和56%(34对78)。与添加了来自BB2SegNet的分段的BeyondPixels相比,在sMOTSA中从84.9提高到85.7,同时将IDS的数量从97减少到31。这还不到IDS的三分之一。尽管使用了更强的RRC检测器,但使用方法的分割在sMOTSA中仍优于1.3个百分点(78.2对76.9)。
在表II中,还评估了MOTS测试服务器上MOTSFusion的最佳版本,其中显著优于之前的最佳结果。
细分跟踪:在线版本。在表I中,还展示了所有五个实验装置的MOTSFusion在线版本的结果。就IDS而言,在线版本的工作效果几乎与离线版本一样好,导致在五种设置之间切换的ID数量可以忽略不计。这表明了基于重建的跟踪方法的优势,即使在在线环境中也是如此。然而,在线版本不能利用与离线版本相同的先验来进行丢失检测恢复,其中两个合并的tracklet之间可能有丢失的测量,导致与没有检测填充的离线版本类似的性能,因此更依赖于每帧中的良好检测。
表I
KITTI-MOTS验证的掩码跟踪结果。没有对行人的RRC检测器进行评估,因为检测只适用于汽车。每个部分的最佳结果数字以粗体显示。速度是以每帧秒为单位测量的。
表二
在KITTI-MOTS测试上的最佳方法的掩模跟踪结果。
表III
使用RRC[29]检测和BB2SEGNET[21]分割的不同深度估计的KITTI-MOTS验证的掩模跟踪结果。EPE是与激光雷达深度相比的平均终点误差。
图5. 消融显示了改变时间间隙大小N的效果,N是用于3D小跟踪合并的最大帧数。
给出了MOTSA(红色)和IDS(蓝色)的结果。虚线显示了在没有基于重建的跟踪的情况下生成2D跟踪集的值。点划线显示了执行tracklet合并但没有丢失检测恢复时的MOTSA。
表IV
KITTI跟踪验证(CARS)的边界框跟踪结果。MOTA*和IDS*度量使用[38]中的自适应id定义。所有方法都使用RRC检测[29]。速度是以每帧秒为单位测量的。
表V
KITTI跟踪测试(汽车)的边界框跟踪结果。在KITTI跟踪基准测试上,方法在十种性能最好的已发表方法中获得了最高的MOTA分数。注意,使用FRCNN检测器的方法对检测器进行不同的训练。速度是以每帧秒为单位测量的。
细分跟踪:Oracle比较。使用“预言家”跟踪器呈现每个设置的结果,该跟踪器进行检测和分割,并使用地面实况将这些结果关联到跟踪中。针对汽车的最佳性能方法获得的sMOTSA仅比完美跟踪器的理论最大值低1.2个百分点。预言机仍然有FP,因为MOTS评估脚本限制帧中的所有掩码不重叠,这可能会导致与地面实况匹配的掩码变得不匹配。
分段跟踪:深度输入消融。MOTSFusion适用于任何深度输入,但主要实验使用立体声。在表III中,还提供了使用激光雷达测量和单目单图像深度估计的结果。
激光雷达深度比立体雷达准确得多,但它也非常稀疏,可能会遇到相机激光雷达校准问题,而单目深度通常不那么准确。为了说明这一点,计算深度估计相对于激光雷达测量的端点误差(EPE)(对于可用的像素),并计算投影到图像帧中的激光雷达点的密度。MOTSFusion使用激光雷达的性能与使用立体声时的性能相似。这表明方法对立体深度中存在的不精确性是鲁棒的,并且它可以成功地处理稀疏输入。当使用精度低得多的单目深度估计时,MOTSFusion的性能不如不使用任何深度估计的2D版本准确,但仍有所改进。这表明了方法对噪声深度输入的鲁棒性。
分段跟踪:Tracklet合并消融。图5显示了对合并候选之间的最大帧数N使用不同阈值的结果。
与初始跟踪(虚线)相比,当合并MOTSA分数和IDS数量最多相隔15个时间步长的跟踪时,结果会迅速显著改善。当合并超过25帧时,丢失检测恢复变得不那么准确,引入了更多的假阳性,而tracklet合并保持准确,保持IDS较低。当合并超过60帧时,tracklet合并也会引入错误,IDS也会增加。
对于主要实验,选择20帧的阈值。红色实线曲线和虚线曲线之间的间隙显示了与缺失检测恢复相比,小跟踪合并对2D结果的改进有多大。
边界框跟踪:最先进的比较。在从[38]和官方测试集分离的KITTI MOT验证上评估边界框跟踪。验证和测试结果分别如表IV和表V所示。MOTSFusion在使用相同检测的同时,在这两个集合上都显著优于目前性能最好的已发表方法BeyondPixels。
它还优于使用不同检测的其他最先进的方法。对于IDS的KITTI MOT定义,将IDS从验证拆分的31减少到9,从测试集的468减少到275。
当在验证集上使用更具挑战性的IDS*进行评估时,只生成31个IDS*,而BeyondPixels的IDS*为91个。MOTSFusion在MOTA度量上的val/test分割分别优于BeyondPixels 0.3%和0.6%,而在val集的MOTA*度量上的性能优于BeyondPixels 1.6%。
对于边界框跟踪,不执行缺失检测恢复,因为确定是否应填充检测的检查需要对照可见像素的分割掩码进行检查,而KITTI MOT中的边界框是“阿莫达尔”的,这意味着它们覆盖了对象的可见和隐藏部分,无法通过基于掩码的检查进行验证。
运行时。MOTSFusion使用带有Intel Core i7-5930K CPU和GTX 1080 Ti GPU的台式电脑,每帧运行0.44秒,包括输入预处理。输入预处理每帧耗时0.20秒,其中光流和深度估计各耗时0.07秒,相对自拍姿势耗时0.06秒。
2D跟踪生成每帧总共需要0.07秒来执行掩模生成、光流扭曲和合并到跟踪中。
基于重建的小跟踪合并总共需要0.17秒。其中0.16秒用于拟合3D对象融合的齐次变换,这是跟踪器中最慢的部分,并且可以在未来使用最小二乘优化的GPU实现轻松加速。
与相同硬件上的其他跟踪器相比,TrackR-CNN每帧耗时0.50秒,BeyondPixels每帧耗时0.30秒(加上MOTS的掩模生成耗时0.06秒)。因此,算法能够以类似的效率运行,同时执行得更好,尤其是对于长期跟踪。当使用激光雷达或GPS作为输入时,方法会更快,因为深度和/或自运动将直接来自传感器。作为MOT的标准,任何方法都不包括检测器运行时。
V.结论
已经提出了一个框架,在该框架中,跟踪和3D对象重建可以一起执行,并且可以相互受益,其中跟踪实现重建,重建实现通过遮挡的长期跟踪。在评估中,方法在边界框和分割跟踪方面都优于以前的跟踪方法。特别是,方法能够通过完全遮挡或错过检测来“长期”跟踪对象。
展示了使用3D重建来改进跟踪的明显好处,并提出了一个跟踪框架MOTSFusion,在该框架中可以有效地利用这一点。
参考文献链接
Track to Reconstruct and Reconstruct to Track
https://arxiv.org/pdf/1910.00130.pdf