[Paper Reading] MOTR: End-to-End Multiple-Object Tracking with Transformer
MOTR: End-to-End Multiple-Object Tracking with Transformer
link
时间:22.07
机构:Megvii
TL;DR
传统MOT通过motion与appearance来建模,有复杂的后处理难以E2E。本文基于DETR设计出MOTR算法,通过引入track query来建模被追踪物体。效果上超过同期方法,TrackFormer/TransTrack。
Method
MOTR与DETR的关系
整体算法Pipeline
其中QIM(query interaction module),以及Training Loss会在下面部分展示介绍。
QIM(query interaction module)
一个后处里Module,用来增加新Track,以及杀掉断连的老Track。最左边是Transformer Decoder输出的hidden state(以det + track为query seq),根据通过FFN得到object score来判断det object是否转为track query,以及track query是否该移除seq。TAN是用来update query特征的模块,如果某个track query对应的hidden stage继续跟踪成功,那么使用该hidden stage来更新query 得到下一帧track query 。
Collective Average Loss
不同于一般的前后帧时序训练,本文是以Clip为单位,一次性训练整个视频,Loss也按照整个Clip来计算。
单帧的Loss(参考DETR,只不过有些Det query换成了Track query)
多帧的Loss平均作为最终Loss
Ablation Study
Experiment
10min, 效果怎么样?哪些分析实验有启发意义?
相比于TrackFormer与TransTrack而言,MOTR更加E2E。
精度虽然没有SOTA,但在Transformer-Based类方法效果最佳。
在另外两个测试集上达到SOTA
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律