[Paper Reading] MOTR: End-to-End Multiple-Object Tracking with Transformer

MOTR: End-to-End Multiple-Object Tracking with Transformer

link
时间：22.07
机构：Megvii

TL;DR

传统MOT通过motion与appearance来建模，有复杂的后处理难以E2E。本文基于DETR设计出MOTR算法，通过引入track query来建模被追踪物体。效果上超过同期方法，TrackFormer/TransTrack。

Method

MOTR与DETR的关系

整体算法Pipeline

其中QIM(query interaction module)，以及Training Loss会在下面部分展示介绍。

QIM(query interaction module)

一个后处里Module，用来增加新Track，以及杀掉断连的老Track。最左边是Transformer Decoder输出的hidden state(以det + track为query seq)，根据通过FFN得到object score来判断det object是否转为track query，以及track query是否该移除seq。TAN是用来update query特征的模块，如果某个track query对应的hidden stage继续跟踪成功，那么使用该hidden stage来更新query \(q^{i}_{tr}\)得到下一帧track query \(q^{i+1}_{tr}\)。