Learnable Graph Matching: Incorporating Graph Partitioning with Deep Feature Learning for Multiple Object Tracking

可学习图匹配:将图分割与深度特征学习结合用于多目标跟踪

这是一篇CVPR2021年的论文。

作者提出了一些传统问题的需要改进的地方:

  1. 传统的多目标追踪问题是基于图的优化或通过深度学习直接学习解决。
  2. 忽略了小段轨迹和帧内检测的上下文信息
  3. 仅依赖深度神经网络的数据拟合能力,很少利用基于优化的指派方法

本文提出了一种新的可学习图匹配方法来解决这些问题。简单地说,我们将小段轨迹和帧内检测之间的关系建模为一般无向图。然后将关联问题转化为轨迹图和检测图之间的一般图匹配问题。

目前MOT的主要方法是检测追踪,包括两个步骤:

  1. 通过逐帧检测获得目标边界框

  2. 通过在帧之间关联相同对象来生成轨迹

第一个问题主要是通过强大的检测器解决。

第二问题主要从两个方面提高数据关联能力:

  1. 将关联问题表述为组合图划分问题,并使用高级优化技术(进展缓慢)
  2. 用深度学习改进外观模型

所有这些现有的工作都集中在寻找跨帧的最佳匹配,但忽略了帧内的上下文。在本文中,我们认为,在MOT中,同一帧内的顶点之间的关系对于一些具有挑战性的情况也是至关重要的。例如,我们可以仅通过过去与邻域对象的关系将被遮挡对象与正确的轨迹匹配。

![image-20211112121447347](/Users/poirot/Library/Application Support/typora-user-images/image-20211112121447347.png)

我们可以仅通过过去与邻域对象的关系将被遮挡的对象匹配到正确的轨迹。图1仅示出了这样的示例。同一帧中的这些成对关系可以表示为一般图中的边。为此,流行的跨帧二部匹配可以更新为它们之间的一般图匹配。

为了进一步将这种新的分配公式与强大的特征学习相结合,我们首先将图匹配的原始公式放松为二次规划,然后根据KKT条件和图匹配问题的隐函数定理推导出一个可微QP层。

论文贡献:

  1. 我们强调帧内关系的重要性,而不是只关注帧间的关联。特别地,我们建议将关系表示为一般图,并将关联问题表示为一般图匹配。

  2. 为了解决这一具有挑战性的指派问题,并将其与深度特征学习相结合,我们基于问题的连续松弛推导了可微二次规划层,并利用隐函数定理和KKT条件推导了反向传播过程中输入特征的梯度w.r.t。

  3. 我们在大规模开放基准上评估了我们提出的GMTracker。我们的方法可以显著提高关联度量(如IDF1)的最新性能。

![image-20211112171911619](/Users/poirot/Library/Application Support/typora-user-images/image-20211112171911619.png)

![image-20211112171924463](/Users/poirot/Library/Application Support/typora-user-images/image-20211112171924463.png)

![image-20211112171934013](/Users/poirot/Library/Application Support/typora-user-images/image-20211112171934013.png)

![image-20211112172008362](/Users/poirot/Library/Application Support/typora-user-images/image-20211112172008362.png)

其中n是图G1和G2中的顶点数,下标i和i′是图G1的顶点,j和j′是G2中的顶点

![image-20211112172457496](/Users/poirot/Library/Application Support/typora-user-images/image-20211112172457496.png)

转为对称二次亲和矩阵

![image-20211112172548468](/Users/poirot/Library/Application Support/typora-user-images/image-20211112172548468.png)

再次对边特征放松

![image-20211112172747685](/Users/poirot/Library/Application Support/typora-user-images/image-20211112172747685.png)

D′ ={x:Rx=1,Ux≤1,x≥0,R=1⊤n2 ⊗ In1 , U = I⊤n ⊗ 1n1 } ,⊗ 表示克罗内克积

介绍图形匹配网络和GMTracker。如图3所示,我们的图匹配网络的管道由三部分组成:(1)检测图和轨迹图中的特征编码;(2) 通过交叉图卷积网络(GCN)和(3)可微图匹配层进行特征增强。

我们在MOT16和MOT17基准上进行了所有实验。该基准测试中的视频是在各种场景、光照条件和帧速率下拍摄的。遮挡、运动模糊、相机运动和远处行人也是该基准中的关键问题。在所有评估指标中,多目标跟踪精度(MOTA)和ID F1分数(IDF1)是MOT任务中最通用的指标。由于MOTA主要由检测度量假阳性和假阴性决定,并且我们的图形匹配方法主要尝试处理检测对象之间的关联,因此我们更关注IDF1而不是MOTA度量。

训练

采用Tracktor来改进公共检测。对于用于特征提取的ReID网络,我们使用一个ResNet50[16]主干网,然后是一个全局平均池层和一个具有512个通道的完全连接层。我们使用l2规范化进一步规范化输出特性。我们根据[8]的设置,在Market1501、DukeMTMC和CUHK03数据集上联合预训练ReID网络。ReID网络的参数将在预培训后冻结。然后,我们添加了两个可训练的完全连接层和512个通道,以获得外观特征。我们的实现基于PyTorch[45]框架。我们在NVIDIA RTX 2080Ti GPU上训练我们的模型。应用Adam[25]优化器时,β1=0.9,β2=0.999。学习率为5×10−5,权重衰减为10−5。

消融试验

我们烧蚀了我们提出的每个组件:(i)作为QP层(GM)构建的图匹配模块;(ii)MLP在MOT数据集上训练以细化外观特征(App. Enc.) ;(iii)使用和不使用几何信息(Geo)的交叉图GCN模块(GCN)(iv)同一对象之间按时间的线性插值方法(Inter.)。

![image-20211112174631613](/Users/poirot/Library/Application Support/typora-user-images/image-20211112174631613.png)

![image-20211112174650723](/Users/poirot/Library/Application Support/typora-user-images/image-20211112174650723.png)

结论:

提出了一种新的多目标跟踪任务的可学习图匹配方法,称为GMTracker。图匹配方法着重于轨迹和检测之间的关系。考虑到二阶边缘到边缘的相似性,跟踪器在MOT任务中更加精确和健壮,尤其是在拥挤的视频中。为了使图匹配模块端到端可微,将QAP公式放松为凸QP,并在图匹配网络中构建可微图匹配层。

posted @ 2021-12-02 19:55  匈牙利算法  阅读(323)  评论(0编辑  收藏  举报