分割和跟踪每个像素(STEP)评估
分割和跟踪每个像素(STEP)评估
Segmenting and Tracking Every Pixel (STEP) Evaluation
https://www.cvlibs.net/datasets/kitti/eval_step.php
此基准是ICCV21研讨会的一部分:分割和跟踪每个点和像素。
分段和跟踪每个像素(STEP)基准由21个训练序列和29个测试序列组成。它基于KITTI跟踪评估和多目标跟踪与分割(MOTS)基准。此基准测试将注释扩展到“分段和跟踪每个像素”(STEP)任务。为此,为每个像素添加了密集的逐像素分割标签。在该基准中,每个像素都有一个语义标签,属于最显著对象类(汽车和行人)的所有像素都有唯一的跟踪ID。使用分割和跟踪质量(STQ)指标评估提交的结果:
STQ:由AQ和SQ的几何平均值给出的组合分割和跟踪质量。
AQ:与类无关的关联质量。有关详细信息,请参阅上面的链接。
SQ(IoU):由所有类的平均IoU给出的与轨道无关的分割质量。
提交说明可以在提交结果页面上找到。请向Mark Weber回答有关KITTI-STEP及其评估的任何问题或反馈。
重要政策更新:随着越来越多的未发表作品和现有作品的重新实施被提交给KITTI,制定了一项新政策:从现在起,只有具有重大新颖性的作品才能在会议或期刊上发表同行评审论文。不允许对现有算法或学生研究项目进行微小修改。此类工作必须在训练集中进行评估。为了确保政策被采纳,新用户必须在注册期间详细说明他们的状态、描述他们的工作并指定目标地点。此外,将定期删除所有6个月大但仍然匿名或没有相关论文的条目。对于会议,6个月的时间足以确定论文是否被接受并添加参考书目信息。对于较长的审查周期,需要重新提交结果。
方法使用的附加信息
在线:在线方式(逐帧处理,无延迟)
额外的训练数据:使用额外的数据源进行训练
\begin{tabular}{c | c | c | c | c}
{\bf Method} & {\bf Setting} & {\bf STQ}
& {\bf AQ} & {\bf SQ (IoU)}\\ \hline
Video-kMaX & & 68.47 \% & 67.20 \%
& 69.77 \%\\
TubeFormer-DeepLab & on & 65.25 \% &
60.59 \% & 70.27 \%\\
siain & on & 57.87 \% & 55.16 \% &
60.71 \%\\
Motion-DeepLab & on & 52.19 \% & 45.55
\% & 59.81 \%
\end{tabular}
图1:提出的KITTI-STEP(顶部)和MOTChallenge STEP(底部)的基本事实标签。
为视频中的每个像素分配语义类和轨迹标识的任务称为视频全景分割。工作是第一次在需要在空间和时间域进行密集解释的现实世界环境中针对这项任务。由于这项任务的基本事实很难获得,而且成本高昂,现有的数据集要么是综合构建的,要么只是在短视频片段中稀疏注释。为了克服这一点,引入了一个新的基准测试,包括两个数据集,KITTI-STEP和MOTChallenge STEP。这些数据集包含长视频序列,为研究现实世界条件下的长期像素精确分割和跟踪提供了具有挑战性的例子和试验台。进一步提出了一种新的评估度量——分割和跟踪质量(STQ),它公平地平衡了该任务的语义和跟踪方面,更适合评估任意长度的序列。
最后,提供了几个基线来评估现有方法在这个新的具有挑战性的数据集上的状态。已经公开了数据集、度量、基准服务器和基线,并希望这将激励未来的研究。
1简介
密集、像素精确的视频场景理解对自动驾驶、电影编辑和时空推理等应用具有重要意义。更具体地说,虽然语义解释有助于估计自动驾驶汽车的可驾驶区域等任务,但物体的跟踪使能够预测周围环境的时间演变,这对运动规划和避障至关重要。
挑战。在实现这一目标的过程中,有三个挑战是发现以前的基准没有解决的。首先,解释相机连续输入的每个像素的能力。
其次,随着时间的推移,输入信号的变化可能会迅速发生,因此要求以与发生的变化相同的高频进行评估。第三,对连续感觉输入的解释需要时间一致的场景理解,即长期跟踪,而当前的基准和度量不适合这种情况。这项工作的目的是通过引入合适的基准和指标来推进这一领域。
过去,PASCAL VOC、ImageNet和COCO等图像基准在过去十年计算机视觉研究的惊人进展中发挥了关键作用,使社区能够以标准化的方式评估不同的方法。
使用各种任务的真实世界数据集来公平地衡量进展并突出关键创新。
为了全面理解图像,Kirillov等人引入了全景分割的概念,将其作为语义分割和实例分割的结合。Kim等人随后引入了视频全景分割(VPS)的概念。然而,它们只是标记了来自真实世界短视频片段的稀疏像素子集,这些片段不适合密集像素精确的视频理解。此外,由于领域转移,现有的合成数据集难以在现实世界中评估性能。
对于VPS的评估,现有的度量建立在全景分割和多目标跟踪的度量之上。由于指标在决定社区的研究方向方面可能很重要,因此指标中的偏差可能会阻碍有希望的创新。
贡献。这项工作的贡献有三方面:
(1) 引入了更合适的基准数据集,这些数据集特别允许时空密集和以像素为中心的评估。提出的基准扩展了现有的KITTI-MOTS和MOTS-Challenge数据集,具有空间和时间密集的注释。试图用语义类和轨迹ID标记每个像素。与全景分割一样,将每个不可计数区域(如天空)视为属于单个轨迹。对于最显著的可数类,在整个视频序列中为每个实例分配一个语义类和一个唯一的ID。
(2) 详细研究了先前的度量之后,提出了更适合于访问算法的分割和跟踪性能的分割和追踪质量(STQ)度量。
STQ是在像素级别定义的,并在细粒度级别提供了与基本事实的准确和直观的比较。
基准测试的核心原理是,在评估算法时,每帧中的每个像素都很重要。
(3) 最后,数据集和指标为提供了一个有效的试验台,用于评估几个基线,这些基线显示了基于基准的统一与分离和基于运动与外观的方法的效果。这包括使用光流进行掩模传播的方法或受最先进跟踪工作启发的方法。测试服务器将实现方法的公平基准测试。这为研究密集视频理解提供了一个完整的框架,其中分割和跟踪都以详细和全面的方式进行评估。总之,
展示了第一个真实世界的空间和时间密集注释数据集KITTISTEP和MOTChallenge STEP,提供了具有挑战性的分割和(长)跟踪场景。
•深入分析了最近提出的指标,并根据发现提出了分割和跟踪质量(STQ)指标。
•展示了基于既定分割和跟踪范式的简单基线,激励了未来在端到端模型中的研究。
图2:注释过程:来自PanopticDeepLab的机器注释语义分割由人工注释器进行多次细化。所得到的注释进一步与KITTI-MOTS和MOTS Challenge的现有实例基本事实合并。
(a) KITTI-STEP。(b) MOTChallenge STEP。
图3:KITTI-STEP和MOTChallenge STEP中的标签分布。
(a) KITTI-STEP的轨道长度分布。
(b) 真实世界数据集比较。指训练集。
图4:KITTI-STEP的数据集统计、比较和通道长度分布。
图5:对于最多5帧的轨道,关联精度、关联召回和删除具有错误轨道ID的正确分段的说明。每辆车都在一个单独的帧中,其中颜色对轨道ID进行编码。假设完美分割并显示匹配的轨迹。例如,左侧场景包含两条地面实况轨迹(橙色、蓝色),而预测包含一条与两条地面真相轨迹重叠的轨迹(紫色)。在这里,只有颜色的变化才是重要的。理想情况下,预测应该在与地面实况相同的帧处具有颜色转换(如果有的话)。VPQ†是指在完整视频而不是小跨度视频上评估时的VPQ分数。STQ是唯一一个适当惩罚ID转移(#1,P4)、鼓励长期跟踪一致性(#3>#2,P4)以及在去除语义正确的预测时降低分数(#4>#5,P5)的度量。
表1:度量比较。(✓): 部分满意。VPQ和PTQ不能满足性能要求。得分更高。总的来说,关联质量(AQ)定义如下。
表2:比较了KITTI-STEP数据集上不同指标下的不同基线。强调每个指标中的第一和第二好分数。OF是指外部光流网络。
表3:MOTChallenge STEP数据集上不同基线的实验结果。强调每个指标中的第一和第二好分数。OF是指外部光流网络。
参考文献链接
https://www.cvlibs.net/datasets/kitti/eval_step.php
https://arxiv.org/pdf/2102.11859.pdf