YOLOV:图像对象检测器在视频对象检测方面表现也很不错

前言与传统的两段pipeline不同，论文提出了在一段检测之后再进行区域级的选择，避免了处理大量低质量的候选区域。此外，还构建了一个新的模块来评估目标帧与参考帧之间的关系，并指导聚合。
作者进行了大量的实验来验证该方法的有效性，并揭示了其在有效性和效率方面优于其他最先进的VID方法。在ImageNet VID数据集上，采用单个2080Ti GPU，达到了超过30帧/秒的87.5% AP50。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。目前公众号正在征稿中，可以获取对应的稿费哦。

QQ交流群: 444129970。群内有大佬负责解答大家的日常学习、科研、代码问题。

论文：https://arxiv.org/pdf/2208.09686.pdf

代码：https://github.com/YuHengsss/YOLOV

创新思路

基于区域的CNN系列（R-CNN）是两阶段物体检测器的先驱，具有多种后续功能给定区域级特征，这些静止图像检测器可以很容易地转移到更复杂的任务，如分割和视频对象检测。然而，由于两阶段性质，效率是实际应用的瓶颈，而对于单阶段目标检测器，定位和分类是由特征图的密集预测联合直接产生的。

视频对象检测可以被视为静止图像对象检测的高级版本。可以通过将帧一帧一帧地馈送到静止图像对象检测器中来处理视频序列。但是，通过这种方式，跨帧的时间信息将被浪费，这可能是消除/减少单个图像中出现的模糊性的关键。

如图1所示，诸如运动模糊、相机散焦和遮挡等劣化经常出现在视频帧中，显著增加了检测的难度。例如，仅通过查看图1中的最后一帧，人类很难甚至不可能分辨出物体在哪里和是什么。另一方面，视频序列可以提供比单个静止图像更丰富的信息。也就是说，同一序列中的其他帧可能支持特定帧的预测。

图1:帧遭受各种退化，如运动模糊和遮挡，使基础YOLOX无法完成任务

帧聚合有两种主要类型，即框级和特征级。这两种技术路线可以从不同角度提高检测精度。关于框级方法，它们通过链接边界框来连接静止对象检测器的预测以形成tubelet，然后在同一tubelet中细化结果。盒级方法可被视为后处理，可灵活应用于一级和两阶段检测器。

而对于特征级方案，关键帧的特征通过从其他帧（也称为参考帧）中查找和聚集相似特征来增强。两阶段方式以由区域建议网络（RPN）提取的主干特征图的显式表示，得益于这种性质，两阶段检测器可以很容易地迁移到视频对象检测问题。因此，大多数视频对象检测器构建在两阶段检测器上。

然而，由于引入了寻求方案之间的关系，这些两阶段视频对象检测器进一步减速，因此难以满足实时场景的需要。与两阶段基础不同，提出了由一阶段检测器的特征图元素隐式表示。尽管没有对象的显式表示，但特征图的这些元素仍然可以从聚集VID任务的时间信息中受益。

在这些考虑的驱动下，自然产生了一个问题：能否使这种区域级设计适用于仅包含像素级特征的单阶段检测器，以构建实用（准确和快速）视频对象检测器。

本文通过设计一种简单而有效的策略来聚集单阶段检测器在这项工作中生成的特征，回答了上述问题。

本文主要的贡献

1. 提出了一个特征相似性度量模块来构建亲和矩阵，然后用该矩阵来指导聚合。

2. 为了进一步缓解余弦相似性的限制，定制了参考特征上的平均池算子。

3. YOLOV可以在单个2080Ti GPU上以40+FPS的速度在ImageNet VID数据集上实现85.5%的AP50，通过进一步引入后处理，其精度在超过30fps时达到87.5%的AP50。

方法

考虑视频特征（各种退化与丰富的时间信息）的方法，而不是单独处理帧，如何从其他帧中为目标帧（关键帧）寻找支持信息，在提高视频检测精度方面起着关键作用。大多数现有方法是基于两阶段的技术。

如前所述，它们的主要缺点是与单阶段基础相比，推理速度相对较慢。为了缓解这一限制，作者将区域/特征选择放在单阶段检测器的预测头之后。框架如图3所示。

图3：本文的设计框架。以YOLOX为基础检测器，相应的模型称为YOLOV。从视频中随机采样若干帧，并将其输入基础检测器以提取特征。

传统的两阶段管道：首先“选择”大量候选区域作为 proposals；确定每个 proposal是否为对象，以及它属于哪个类别。计算瓶颈主要来自处理大量的低置信度区域候选。

如图3所示，pipeline 还包含两个阶段。不同的是，其第一阶段是预测（丢弃大量具有低置信度的区域），而第二阶段可以被视为区域级细化（通过聚合利用其他帧）。

根据这一原理，作者的设计可以同时受益于单阶段检测器的效率和从时间聚集获得的精度。所提出的策略可以推广到许多基本检测器，如YOLOX、FCOS和Pyoloe。

FSM：特征选择模块

由于大多数预测的可信度较低，单阶段检测器的检测头是从特征图中选择（高质量）候选的自然和合理的选择。在RPN过程之后，首先根据置信度得分选出前k（例如750）个预测。然后，非最大值抑制（NMS）选择固定数量a的预测（例如，a=30），以减少冗余。为了获得用于视频对象分类的特征，基本检测器的精度应得到相应保证。

在实践中，作者发现直接聚集分类分支中的选定特征并反向传播聚集特征的分类损失将导致不稳定的训练。

为了解决上述问题，作者将两个3×3卷积（Conv）层作为一个新分支插入模型颈部，称为视频对象分类分支，它生成用于聚合的特征。然后，将视频分类和回归分支中与位置相关的特征输入到特征聚合模块中。

FAM：功能聚合模块

当关键帧出现某些退化时，与这些相似特征相对应的选定方案很可能出现相同的问题。将这种现象称为同质性问题。

为了克服这个问题，进一步考虑了来自基础的预测置信度Pi,Pi的每一列仅包含2个分数，即分别来自分类和回归头的分类分数和IoU分数。然后，构建查询、键和值矩阵，并将其输入多头注意力。通过注意的标度点积，得到了相应的Ac和Ar，收集P中的所有分数得到一个大小为2×FA的矩阵[P1，P2，…，Pf]。

为了使这些分数适合注意力权重，作者构建了两个矩阵，即Sr和Sc。然后，得到分类和回归分支的自我关注结果：