CVPR 2022 | 未知目标检测模块STUD：学习视频中的未知目标

前言构建能够检测分布外(OOD)目标的可靠目标检测器是至关重要的，但尚未得到充分探索。关键挑战之一是，模型缺乏来自未知数据的监督信号，从而对OOD对象产生过于自信的预测。

文章提出了一种基于时空未知蒸馏(STUD)的未知目标检测框架，该框架从野外视频中提取（蒸馏出）未知目标，并对模型的决策边界进行有意义的正则化。STUD首先在空间维度上识别未知候选对象提案，然后在多个视频帧上聚合候选对象以形成决策边界附近的不同的未知对象集。作者采用基于能量的不确定性正则化损失，它对比地塑造了分布中的未知对象和提取的未知对象之间的不确定性空间。

STUD为目标检测确立了OOD检测任务的最先进性能，与之前的最佳方法相比，FPR95分数降低了10%以上。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

论文：Unknown-Aware Object Detection: Learning What You Don't Know from Videos in the Wild

论文：https://arxiv.org/abs/2203.03800

代码：https://github.com/deeplearning-wisc/stud

1.初步介绍

目标检测模型在被训练的已知上下文中已经取得了巨大的成功，但是在处理网络训练时没有接触过的因此不能被网络预测到的未知类别-分布外（OOD）数据时却表现挣扎。教目标检测器感知到未知的目标对于建立一个可依赖的视觉系统是关键的，特别是在自动驾驶和医疗分析等安全关键的应用中。

虽然已经OOD检测方面已有一些工作，但是在目标检测的上下文方面仍然有待探索。不像图像级的OOD检测，对未知对象的检测需要对复杂场景更细粒度的理解。

实际应用中，一些图像可能在一些特别的领域是OOD的，但是在别的地方是分布内（ID）的。例子：自动驾驶中，目标检测模型被用来识别ID目标（车辆、行人），但是能够对一个OOD的目标产生一个置信度很高的预测。（如图中的deer，被检测为置信度很高的行人类）原因：目标检测器最小化训练误差却没有考虑训练类别之外出现的不确定性。

问题

在开放世界中，OOD目标出现的方式太多了(如图b,BDD100K数据集中的OOD目标)。而在已经标注了ID目标后，再标注OOD目标成本太高了。

解决方案

作者提出通过时空未知蒸馏（STUD）的未知目标目标检测框架，其从野外视频中提取未知对象，并有意义地规范化模型的决策边界；尝试通过共同优化目标检测和OOD检测的表现来实现模型正则化。蒸馏的概念：化学概念，从混合物中分离出物质的过程。

细节

包括两个组件，分别实现

1.从视频中蒸馏出多种未知目标的STUD；在空间维，对于一帧内的ID目标，基于一个OOD评估方法在参考帧中识别出未知目标候选对象，接着通过在特征空间中线性组合所选择的目标来提取未知目标，并通过相异度度量来加权，在时间维度上，从多个视频帧中聚合未知物体。

2.使用提取得到的未知目标来正则化目标检测器；使用不确定性正则化分支训练目标检测器，有利于在ID和OOD对象之间学习更保守的决策边界，这有助于在推理过程中标记未见过的OOD对象。

贡献

1.提出STUD，解决了具有挑战性但是违背充分探索的OOD问题，第一个利用视频信息进行OOD识别的目标检测模型。

2.通过在时间和空间维度上蒸馏多种未知目标，有效地调整目标检测器，无需人工标注OOD目标;且STUD比在高位像素空间合成未知量（GAN或者使用负建议作为未知量）更有优势。

3.在BDD100K和Youtube-VIS上评估了STUD，在保证ID目标精度的同时，实现OOD目标SOTA（在BDD100K上超越FPR95地10.88%）。

2.基本问题介绍

之前的OOD检测都是把整个图像视为异常，进行检测，可能导致图1（a）的歧义。而自然图像不是单一的实体，而是由很多目标和一些别的组件构成。知道一个图像的异常区域能够实现安全地处理不熟悉的对象。与图像级的OOD检测相比，目标级的OOD检测在现实感知中更加相关，但也更有挑战性，因为需要推理细粒度目标级的OOD不确定性。

本文作者也因此设计了可靠的目标检测器，测试感知未知的OOD目标，即在ID类别上训练的目标检测器能够检测不在训练类别之内的目标，并且能够做出一个置信度预测。

OOD检测可视为一个二分类问题，区分ID与OOD目标。ID内目标视为1，类别标签在分布内，OOD目标视为0，语义信息在分布之外。

3.方法结构

文章的未知目标感知目标检测框架训练与OOD不确定性正则化分支串联的目标检测器，二者共享特征提取器和预测头，并从头开始联合训练，如下图。

OOD检测框架包含两个组件。

1）Spatial-Temporal Unknown Distillation(STUD)组件。

该组件无需明确的对未知物体的监督信号，就可以从富含时空信息的视频中蒸馏出未知目标。

本文提出的目标检测蒸馏过程是在目标级别上执行的，而不是影像级别。针对每一个ID目标，都会构造一个相应的OOD目标的对应物（counterpart）。提炼（蒸馏）出的未知目标将被用于模型的正则化。以无监督方式构建OOD目标可能会增加样本复杂度以及需要观测OOD目标的多样性，因此使用STUD，从视频中丰富的时空信息中提取未知目标。

空间维度上，对于给定帧中的每个 ID 目标，通过对来自参考帧的目标特征的线性组合来创建未知的对应目标，其中目标特征的线性组合是通过不相似性测量进行加权。与使用单个目标相比，使用多个目标可以捕获更多样化的未知分布。STUD对建议生成器的特征输出进行操作以计算差异性分数，其中通过对时间戳相近但不同的两帧中的目标特征分别进行重编码（通过一个小网络），计算差异性分数：

差异性分数越大，两帧中的目标特征差异性就越大，则这些目标中更有可能包含模型正则化的未知目标，如下图路灯和广告牌，具有更显著的差异性。最后对参考帧中的未知目标进行加权平均，来获取未知目标，其中权值来自差异性分数的归一化指数。

下式从左至右分别为对目标特征进行加权平均后得到的未知目标特征，以及权值

时间维度上，参考以上两帧之间的差异性分数计算方式，STUD在多个参考帧上执行，在时间维度上捕获额外的未知目标的多样性。观察不同时间戳的帧越多，未知目标的多样性就越多。STUD在时间范围内随机采样T个参考帧，将T帧的目标特征向量连接起来，计算其与主帧的差异性分数，再以相似的方法进行加权平均，从而获取未知目标，扩展了时间维度上的未知目标多样性。

下式是多帧之间的目标特征加权平均之后的得到的未知目标特征。

未知候选目标筛选，通过以上方式在空间与时间维度上获取未知目标特征后，对其进行筛选获取最终的OOD目标是很重要的一步，筛选过程的主要目的是过滤去通过以上方式获取的参考帧中未知目标中可能是ID目标或者简单背景的未知目标，从而最终获取OOD目标，以减少模型混淆ID与OOD目标的可能性。为了避免这种情况，作者根据能量得分对建议进行预过滤，然后将选定的建议用于STUD中。

2）未知感知训练目标。

在已经获取OOD目标后，作者的训练目标设置为在执行目标检测任务的同时，对模型进行正则化处理，是ID目标产生低的不确定分数，使未知目标产生高的不确定分数。总体损失函数设置为：

其中beta是结合两个损失函数的尺度权重。Ldet是检测损失函数，Luncertainty是不确定性分数损失函数。

不确定性正则化；作者采用了一个损失函数，它对比地塑造了不确定性表面，放大了已知 ID 对象和未知 OOD 对象之间的可分离性，正则化损失函数（不确定性分数损失函数）为：

在推理过程中，作者使用逻辑回归不确定性分支的输出进行OOD检测；对于OOD检测，作者使用常见的阈值机制来区分ID和OOD对象，阈值γ的选择通常是为了让高比例的ID数据（例如95%）被正确分类。

未知蒸馏与模型正则化过程之间的相互作用，作者认为，一组精心提炼的未知对象可以改善基于能量的对比正则化，并帮助学习已知和未知对象之间更准确的决策边界。其次，由于对比性不确定性损失放大了已知和未知对象之间的能量差距，未知蒸馏模块可以从更准确的未知对象选择中获益（通过基于能量的过滤）。当这两个部分的表现令人满意时，整个训练过程就会收敛。

4.实验

作者使用两个大规模的视频数据集作为ID数据：BDD100K和Youtube-VIS2021。对于这两项任务，作者在两个包含不同视觉类别的OOD数据集上进行评估：MS-COCO和nuImages，作者进行了仔细的重复数据处理，以确保ID和OOD数据之间没有语义重叠。

为了评估OOD检测性能，作者实验记录了两个指标：1.FPR95，当ID样本的真实阳性率为95%时，OOD样本的假阳性率；（2）AUROC，接收器操作特征曲线下的面积。为了评估ID数据的目标检测性能，作者实验记录了常用的mAP指标。

主要实验结果对比：

消融实验结果：

可视化结果：

笔者评价：

笔者认为，近年来未知目标检测（开放世界目标检测）的相关工作并不多，去年和今年的CVPR中各有几篇。作为CVPR2022中为数不多的未知目标检测方面的工作，从训练过程中ID数据与OOD数据之间的相互作用关系出发，提出模块与训练约束方式，同时保证了两个任务性能，颇为出彩。目前未知目标检测目前工作并不多，遇到瓶颈的CV研究者也许可以在这个小领域寻求突破。

CV技术指南创建了一个计算机视觉技术交流群和免费版的知识星球，目前星球内人数已经600+，主题数量达到200+。

知识星球内将会每天发布一些作业，用于引导大家去学一些东西，大家可根据作业来持续打卡学习。

技术群内每天都会发最近几天出来的顶会论文，大家可以选择感兴趣的论文去阅读，持续follow最新技术，若是看完后写个解读给我们投稿，还可以收到稿费。

另外，技术群内和本人朋友圈内也将发布各个期刊、会议的征稿通知，若有需要的请扫描加好友，并及时关注。

加群加星球方式：关注公众号CV技术指南，获取编辑微信，邀请加入。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。