A Review of Visual Tracking with Deep Learning
摘要:视觉跟踪是计算机视觉领域的一个重要研究方向,已广泛应用于军事,医疗等领域。 近年来,计算机视觉中深度学习的热潮为实现具有更高性能的视觉跟踪提供了一种新途径。 本文首先介绍了视觉跟踪和深度学习的概念和研究现状,然后重点介绍了深度学习在视觉跟踪中的代表性应用,最后总结了未来的发展方向和前景。
1 引言
视觉跟踪是一种检测,提取,识别和定位视频序列中目标的方法。 具体而言,一旦确定了视频序列初始帧中的目标,跟踪器将自动给出后续帧中目标的位置和属性,或者如果该目标不在视线范围内则给出提示。
视觉跟踪与传统跟踪(如雷达跟踪或卫星跟踪)之间存在本质区别。 视觉跟踪源自计算机视觉(CV),并基于图像数据。 视觉跟踪融合了图像处理,模式识别,人工智能和自动控制等许多领域,在军事指导,视频编码,安全监控,智能运输,医疗诊断和气象分析等方面具有广阔的应用前景。
视觉跟踪方法不仅包括用于目标检测,提取,识别和定位的所有过程的算法,而且还包括如何组织信息并在整体水平上做出决策的方案。 跟踪的所有过程都是相互依存,相互制约的。 例如,目标检测,提取和目标表达形式的方法决定了识别方法以及跟踪的效率和鲁棒性,因此我们需要从系统层面考虑。
自1950年代以来,视觉跟踪技术已发展成熟很长时间,并产生了大量出色的算法。 通常,在获取视频之后,算法需要提取目标的特征,然后建立运动模型和观察模型以对目标进行定位和识别,并在需要时更新模型。 研究表明,均值漂移(Mean Shift)和粒子滤波(Particle Filter)作为代表运动模型已经得到了很好的应用,目前,关于视觉跟踪的研究大多集中在目标信息的获取和表示上,即如何提取特征并设计观察模型。
深度学习是机器学习领域最成功的研究方向。 自2006年被提出以来,它在语音、文本、图像、视频等信息处理的许多方面都取得了革命性的进步和突破。 深度学习的优势主要体现在强大的特征表达能力。 通过多级学习和映射,深度网络可以逐渐从边缘,颜色和其他低级特征中获取高级抽象特征。 这些抽象特征具有较高的层次和明显的区别。 即使是简单的分类器,也可以在分类和回归任务中实现高精度。 此外,特征提取(如图1所示)是自动的,不需要与传统特征进行专业的手工设计对比。 这样的优势使庞大而复杂的深度学习网络可以很好地运行,得益于Internet产生的大量数据,并大大提高了计算机的计算性能。
近年来,深度学习极大地提高了计算机视觉的性能。 在图像分类、目标检测、目标定位、场景分类中,几乎所有最佳算法都基于深度学习。 但是,作为传统的计算机视觉任务,基于深度学习的视觉跟踪开始得较晚,并且发展得比其他任务慢。 主要有以下三个原因:
虽然深度学习在特征提取和观察模型表达方面具有优势,但是基于深度网络的复杂视频处理使其难以实现实时跟踪。
缺乏跟踪样本限制了需要大量样本的监督学习。
迄今为止,已经探索了视频处理专用的深度网络的有效结构和训练方法。
本文着重研究了视觉跟踪方向上深度学习的研究进展,介绍了近年来基于深度学习的视觉跟踪算法,并最终总结了研究前景。
2 方法
根据观察模型,视觉跟踪方法可分为两类:生成方法和判别方法。 生成方法使用生成模型来描述外观特征,并最大程度地减少重建误差以搜索目标(例如PCA[WU1] )。 判别方法可以用来区分目标和背景,其性能更健壮,逐渐成为跟踪的主要方法。 判别方法也被称为“检测跟踪”,深度学习属于这一类。
我们如何通过检测实现跟踪? 显然,为所有帧检测候选目标,并使用深度学习从候选目标中识别出所需目标。 下面将介绍两种基本的网络模型:堆叠自编码器(stacked autoencoder,SAE)和卷积神经网络(convolutional neural network,CNN),并说明如何使用它们的代表性的深度网络进行视觉跟踪。
1. 堆叠自编码器
用于跟踪的训练数据通常只是初始帧中的样本,因此跟踪数据非常有限。 在这种情况下,非跟踪数据通常用于辅助预训练以获得各种物体的一般表示。 之后,使用跟踪数据对预训练模型进行微调,以获得分离目标和背景进行实际跟踪的能力。 可以看出,迁移的思想大大减少了跟踪数据的训练需求。
1) DLT。深度学习跟踪器(DLT)是第一个用于跟踪任务的深度网络,其中提出了“离线预训练+在线微调”的思想。 DLT的想法非常自然地出现:
离线无监督使用大型自然图像数据集(Tiny Images数据集)对去噪堆叠自编码器进行预训练,以获得常规的对象表示。 通过在输入图像中添加噪声并重建原始图像,去噪堆叠自编码器可以获得更强大的特征表达能力。
将预训练网络的编码部分与分类器结合,得到分类网络,然后使用从初始帧获得的正样本和负样本对网络进行微调,从而可以区分当前目标和背景。 DLT使用粒子滤波器作为运动模型来生成当前帧的候选目标。 分类网络输出这些目标的概率分数,表示它们的分类的置信度,然后选择这些目标中的最高者作为最终目标。
在模型更新中,DLT使用限制阈值的方式。(即,如果所有粒子中的最高置信度都低于阈值,则将认为目标的外观发生了重大变化,因此当前网络无法正常工作,需要进行更新。)
DLT在OTB50数据集中排名第五,但存在明显的问题:网络结构限制输入图像的大小在较低水平,从而导致特征模糊;SAE不是最佳的跟踪模型,因为跟踪的分类能力与SAE的重建能力并不完全相同。 因此,紧随其后的是SO-DLT,一个具有“离线预训练+在线微调”的DLT想法的深度网络首次使用大规模CNN而非SAE来解决跟踪问题。 与其他最新技术相比,它的显示效果更好。 下面将介绍CNN模型。
2. 卷积神经网络
由于图像识别的优越性,CNN已成为计算机视觉中主流的深度模型,在视觉跟踪中也是如此。 通用方法是将离线训练的大规模CNN用作分类器和跟踪器。 从SO-DLT开始,出现了大量基于CNN的跟踪算法,其中两个代表是全卷积网络跟踪器(FCNT)和多域卷积神经网络(MD Net)。
1)FCNT。作为用于跟踪的CNN的代表,FCNT成功地分析并利用了经过很好预训练的ImageNet的VGG模型的特征图,并得到以下观察结果:
CNN特征图可用于定位和跟踪。
许多CNN特征图对于将特定目标与其背景区分开来的任务而言是嘈杂的或无关的。
较高的层捕获有关目标类别的语义概念,而较低的层对更具区别性的特征进行编码,以捕获类内部的变化。
基于这些观察,FCNT设计了特征选择网络,以选择VGG网络的conv4-3和conv5-3层上最相关的特征图,并避免在噪声较大的情况下过拟合,然后针对所选模型设计两个通道SNet和GNet。 分别来自两个图层的要素地图。 GNet会捕获目标的类别信息,而SNet将具有相似外观的目标与背景区分开。。 在第一帧中使用给定的边界框初始化所有两个网络,以获取目标的热图,对于新帧,裁剪并传播以最后一帧中的目标位置为中心的感兴趣区域(ROI)。 最后,分类器通过SNet和GNet获得两个热图进行预测,跟踪器根据是否存在干扰因素来决定使用哪个热图来生成最终的跟踪结果。FCNT如图3所示。
FCNT构造了一个特征选择网络和两个互补的热图预测网络,有效地抑制了由目标和干扰物变形引起的跟踪框漂移。FCNT在OTB50数据集中取得了新的突破:OPE的精确图达到0.856,OPE的成功图达到0.599,如图4所示。
值得注意的是,分类任务需要识别不同物种的对象,此外,跟踪任务还需要识别外观不同的对象。 两项任务之间的差异促进了CNN多层特征的融合,因为用于分类的CNN更加着眼于集群之间的差异,而忽略集群内部的差异。
2)MD Net。与FCNT的想法不同,MD Net使用视频的所有序列进行预训练以采用跟踪任务。 上面提到的网络使用无关的图像数据来减少跟踪数据的训练需求,并且这种想法与跟踪有些偏差。 该视频中一个类的对象可以是另一视频中的背景,因此MD Net提出了多域的概念,以独立区分每个域中的对象和背景。 一个域指一组包含相同类型对象的视频。
如图5所示,MD Net分为两部分:共享层和k个分支的专用域层。每个分支都包含一个具有softmax损失的二进制分类层,用于区分每个域中的对象和背景。共享层与所有域共享,以确保一般性表示。 为了验证泛化能力,MD Net在2013〜2015年的OTB100数据集和VOT数据集之间交替使用训练数据和验证数据。此外,MD Net从检测任务中采取了一些避免漂移的策略,例如难分样本挖掘,边界框回归等。最终,MD Net赢得了2015年VOT冠军,在OTB50数据集中也取得了惊人的成绩:OPE的精确图达到0.942,OPE的成功图达到0.702。 至于端到端网络的设计和实时跟踪,MD Net仍有很大的改进空间。
3 总结
深度学习是一种强大的特征学习方法。 尽管其在视觉跟踪方面的进展比在视频识别和视频对象检测方面少,但是研究人员尝试了各种方法使深度学习适应视觉跟踪任务的特征。 对于深度学习应用于跟踪的研究,有许多值得探索的方向:
应用其他网络模型:存在非主流但已取得良好效果的DBN和RNN 跟踪模型。
设计网络结构:适应视频处理和端到端学习,同时增强跟踪效果。
优化过程,结构和参数:确保实时跟踪并平衡速度和效果之间的性能。
将深度学习与CV传统方法或相关领域的成就相结合。
设计视频跟踪训练:挖掘视频中对象数据的时空相关性。
本文首先介绍了视觉跟踪和深度学习的概念和研究现状,然后重点介绍了深度学习在视觉跟踪中的代表性应用,最后总结了未来的发展方向和前景。 希望对相关领域有兴趣的研究者参考。