一种基于Transformers的端到端可训练视频全景分割方法
一种基于Transformers的端到端可训练视频全景分割方法
摘要
在本文中,提出了一种算法来解决视频全景分割问题,这是一个新兴的研究领域。视频全景分割是将典型的全景分割和多目标跟踪相结合的任务。换句话说,它需要生成实例跟踪ID以及跨视频序列的全景分割结果。提出的视频全景分割算法使用变换器,它可以通过多个视频帧的输入进行端到端的训练。
在STEP数据集上测试了方法,并用最近提出的STQ度量报告了其性能。该方法在KITTI-STEP数据集上存档57.81%,在MOTChallenge STEP数据集中存档31.8%。
1.简介
视频全景分割可以有效地实现全面的视频理解,因为它同时处理多个任务,即场景元素的分割和实例的识别。
本文提出了一种基于变换器的视频全景分割方法SIAin。该模型是根据最近提出的全景分割算法MaskFomer建立的。MaskFomer将分割任务公式化为掩码分类,而不是每像素分类。
然而,由于MaskFormer仅独立处理视频序列中的每个图像,对其进行了修改,使其具有对象跟踪功能。该方法采用一种新的损失函数进行训练,该函数由检测损失和跟踪损失组成。如果新出现的对象和语义对象被正确分割,则检测损失最小化,而跟踪损失最小化对象跟踪误差。检测和跟踪损失都是公式化的。
带着SIAin参加2021年基准多目标跟踪(BMTT)研讨会的视频赛道比赛。比赛要求为视频中的所有像素分配语义类和跟踪身份。比赛提供了一个新的数据集STEP。每个条目的性能都是用STQ度量来衡量的。
方法在KITTI-STEP数据集上存档了57.81%,在MOTChallenge STEP数据集中存档了31.8%。
2.方法
采用MaskFomer[1]构建了一个视频全景分割网络。MaskFomer可以通过将分割任务公式化为掩模分类任务而不是每像素分类来生成图像的全景分割结果。为了使MaskFormer具有跟踪功能,主要修改了它的损失函数。
在训练阶段的每次迭代中,网络接受K帧而不是单个图像。将这K个训练序列称为集。在一集中,有一组语义对象(S)、一组检测对象(D)和一组跟踪对象(T)。
语义对象是指属于语义类别的对象,如天空、建筑物、人行道、植被等。检测到的对象和跟踪到的对象都有一个类别需要通过视频全景分割算法进行跟踪,如STEP数据集中的汽车和人。检测到的对象和跟踪到的对象之间的区别在于给定特定身份的对象的新颖性。例如,让假设有一个物体在这一集中移动(并且是可见的)。
然后,对象的初始实例被分类为检测到的对象,并且对象的剩余实例被分类到跟踪对象集中。
使用集合S、D和T,可以计算检测损耗
和跟踪损耗
。具体地说,损耗
是用集合S和D计算的,而损耗
是用集合T计算的。检测和跟踪损耗都类似地用公式表示,只是地面实况掩码被聚类到集合S、D和T中。最终损耗计算如下:
其中
和
分别是检测损耗和跟踪损耗的权重常数。此外,值得注意的是,将检测到/跟踪的对象的嵌入作为查询插入到下一帧的变换器解码器中,以便使方法有效地跟踪对象。
图1. 拟议架构的简要说明
在测试阶段,使用端到端训练的SIAin来解决视频全景分割问题。
在第一帧,序列的初始帧由SIAin进行全景分割,并保存检测到的对象的嵌入(变换器解码器的输出)。然后,将嵌入插入到下一帧中的变换器解码器。如果对象被跟踪,则其嵌入将被新的对象替换。最后,如果被跟踪的对象在M个连续帧中丢失,则终止该对象。
提议的建筑结构的简要描述如图1所示。
2.1实施细节
剧集长度K是从具有间隔的离散均匀分布中随机采样的。然后,在选择了初始帧和间隔后,用K个连续帧组成一集。初始帧也是在具有足够裕度的开始帧和结束帧之间随机选择的。连续帧之间的间隔也是从具有间隔的离散均匀分布中随机采样的。
在训练阶段,SIAin在Nvidia A100 GPU上进行训练,对默认设置进行少量更改。使用Swin-L作为主干,并将λS、D和λT分别设置为0.3和0.7。在这里,省略了所描述的其他细节。在测试阶段,KITTI-STEP和MOTChallenge STEP数据集的M都设置为5。
3.实验
3.1.数据集
BMTT挑战赛的视频轨迹通过分段和跟踪每个像素(STEP)进行评估,这是一个新的基准,包括两个数据集:KITTI-STEP和MOTChallenge STEP。
MOTChallenge STEP数据集有四个序列,平均分为两个训练序列和两个测试序列。它为persons类提供实例级注释和标识。KITTI-STEP数据集由21个训练序列和29个测试序列组成。它注释了汽车和人员类的身份和实例。语义类彼此之间略有不同。
图2. SIAin的定性结果。第1、2排:KITTI-STEP;第3、4排:MOTChallenge STEP。
3.2挑战结果
报告SIAin的性能。BMTT的视频轨道上的每个条目的性能通过STQ度量来测量。方法在KITTI-STEP数据集上存档了57.81%,在MOTChallengeSTEP数据集中存档了31.8%(表1和表2)。一些定性示例如图2所示。此外,在表1中,方法在KITTI-STEP上以很大的优势(5.68)优于基线方法Motion DeepLab。
表1. KITTI-STEP排行榜结果。
表2. MOTChallenge STEP排行榜结果。
4.结论
提出了一个使用转换器进行视频全景分割的端到端框架。采用MaskFormer来制作视频全景分割算法SIAin。SIAin使用在序列上跟随对象的查询嵌入作为自回归方式。所提出的框架可以有效地为每个像素分配语义类和跟踪ID,也可以用于在线跟踪场景。方法在KITTISTEP数据集上存档了57.81%的STQ,在MOTChallenge STEP数据集上归档了31.8%的STQ。
参考文献链接
https://arxiv.org/pdf/2110.04009.pdf
An End-to-End Trainable Video Panoptic Segmentation Method using Transformers