CVPR 2022 | UniDet：通用的多数据集目标检测

前言论文提出了一种在多个大规模数据集上训练统一检测器的通用方法。使用特定于数据集的训练协议和损失，但与特定于数据集中的输出共享公共检测架构。与之前的工作相比，该方法不需要手动分类协调。
实验表明，本文学习的分类法在所有数据集中都优于专家设计的分类法。并且多数据集检测器在每个训练域上的性能与特定于数据集的模型一样好，并且可以推广到新的不可见数据集，而无需对它们进行微调。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。目前公众号正在征稿中，可以获取对应的稿费哦。

QQ交流群: 444129970。群内有大佬负责解答大家的日常学习、科研、代码问题。

论文：https://arxiv.org/abs/2102.13086

代码：https://github.com/xingyizhou/UniDet

创新思路

单个数据集在图像域和标签表中都受到限制，不能产生通用识别系统。那么是否可以通过统一不同的检测数据集来缓解这种限制吗？

一般来说，不同的数据集通常在不同的训练损失、数据采样策略和调度下进行训练，每个数据集训练具有单独输出的单个检测器，并对每个数据集应用特定于数据集的监督，训练模拟使用公共网络训练并行数据集特定模型。
本文的一个核心挑战是将不同的数据集集成到一个通用的分类法中，并训练一个检测器，该检测器可以对一般目标而不是特定于数据集的类进行推理。

为此，作者提出了一种仅使用视觉数据的全自动方法来统一多数据集检测系统的输出空间。利用来自不同数据集的类似概念的目标检测器对类似的新目标进行检测。这使得可以定义跨数据集合并概念的成本，并完全自动地优化通用分类法。本文的优化使用新的0-1整数规划公式，联合发现了统一分类法、从该分类法到每个数据集的映射以及统一分类法上的检测器。基于该统一分类法训练的目标检测器具有来自所有训练数据集的大量自动构建的概念标签表。

本文的主要贡献

1、提出了一种仅使用视觉数据的全自动方法来统一多数据集检测系统的输出空间。

2、证明了在不同的训练集上训练的模型在无需再训练的情况下推广到新的领域，并优于单数据集模型。

方法

训练多数据集检测器

本文旨在具有标签空间的K个数据集上训练单个检测器M，以及数据集特定的训练目标。只要不尝试合并不同数据集之间的标签空间，就可以像单独训练多个数据集特定检测器一样训练统一检测器。

这可以被认为是并行训练K个数据集特定检测器，同时共享它们的主干架构。每个数据集特定架构与公共主干共享除最后一层之外的所有层。每个数据集最后都使用自己的分类层。称之为分区检测器。通过最小化K个数据集的特定损失，在所有数据集上训练分区检测器：