MOT中的Data Association(三):基于深度学习的端到端数据关联
链接:https://zhuanlan.zhihu.com/p/111397247
来源:知乎
近几年由于深度学习框架的兴起,端到端的训练和推理框架展现出一定的数据利用优势,而传统的数据关联算法基本都不满足可导可微的特性,因此出现了很多近似的端到端数据关联框架。这里由于篇幅有限,如果专栏和github的反响还可以,后续我会考虑单独开一个基于深度学习的数据关联算法专题,现在我只简要介绍几类出现的框架。
我将近期出现的端到端数据关联框架大致可分为:
- 多特征输入,输出关联矩阵
这类框架只完成了数据关联的任务,即完成对多个目标的匹配,如PAMI2019中的DAN网络结构:
这种框架就是典型的输入历史帧多条跟踪轨迹的特征和当前帧多个特征序列,输出多对多的关联矩阵,这种方式是通过形式的拟合来近似数据关联。又比如ICCV2019的FAMNet:
这个框架将SOT和数据关联相集成。综上,这些方法虽然从形式上近似了数据关联算法,但是都要解决两个问题,一个是所有跟踪轨迹和观测的匹配交互,一个是如何过滤虚警和误检。
- 可微数据关联模块
这类框架就是讲传统不可微的数据关联模块改造成可微的模块,比如DeepMOT:
这种方式基于匈牙利算法求解过程中的row-wise和colunm-wise操作,利用Bi-RNN完成全局的关联记忆,最后将关联矩阵通过连续的0~1的数据代替0-1匹配关系,从而实现可微。
- 基于RNN的数据关联预测
这种方式的特点在于,利用过去时间的跟踪记忆,基于不同行人的空间分布进行位置关系预测,比如ICCV2017的AMIR算法:
不过这类算法严格来说不能划分为数据关联类算法,这里我提出来肯定是有争议的~
- 基于图卷积的数据关联
近几年图卷积网络在视觉领域开始热门起来,也有个别团队采用了这种方式,即利用图卷积网络的消息传递机制,模拟离线数据关联的网络图,这种方式的优点在于可以在线学习:
参考资料
[1] SUN S, AKHTAR N, SONG H, et al. Deep affinity network for multiple object tracking[J]. IEEE transactions on pattern analysis and machine intelligence, 2019.
[2] CHU P, LING H. Famnet: Joint learning of feature, affinity and multi-dimensional assignment for online multiple object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 6172-6181.
[3] XU Y, BAN Y, ALAMEDA-PINEDA X, et al. DeepMOT: A Differentiable Framework for Training Multiple Object Trackers[J]. arXiv preprint arXiv:1906.06618, 2019.
[4] BRASó G, LEAL-TAIXé L. Learning a Neural Solver for Multiple Object Tracking[J]. arXiv preprint arXiv:1912.07515, 2019.
[5] SADEGHIAN A, ALAHI A, SAVARESE S. Tracking the untrackable: Learning to track multiple cues with long-term dependencies[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2017. 300-311.