CVPR 2023 | 标注500类,检测7000类!清华大学等提出通用目标检测算法UniDetector

前言 本文向大家介绍一篇今天新出的非常有意思的 CVPR 2023 的论文,相比于传统的目标检测算法,训练时标注了几个类别,就只能检测几个类别,这篇论文属于通用目标检测的范畴。通过在训练过程中图像和文本对齐,它可以自动扩展到检测那些视觉标注中没有出现的类别。这将有效帮助视觉系统目标检测能力的迁移,感觉是非常有前途的技术方向。

本文转载自我爱计算机视觉

作者 | CV君

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

计算机视觉入门1v3辅导班

论文信息:

▌Detecting Everything in the Open World: Towards Universal Object Detection

论文作者:Zhenyu Wang,Yali Li,Xi Chen,Ser-Nam Lim,Antonio Torralba,Hengshuang Zhao,Shengjin Wang

作者单位:北京信息科学与技术国家研究中心;清华大学;香港大学;Meta AI;MIT

论文链接:

开源地址:

(尚未开源)

这篇论文作者大多数是国内学者。

传统的物体检测算法受限于繁琐的人工标注,在开放世界中出现新类别后往往需要“从头来过”,即使只增加一个新类别,也要完整过一遍标注、训练、部署整个流程,严重限制了其通用性,这显然不“科学”。

该论文作者提出了UniDetector,就是要让目标检测器具有识别开放世界中大量类别的能力。

其核心关键点:

1)基于图像和文本空间的对齐,利用多个来源和异构标签空间的图像进行训练,保证了通用表示的充分信息。

2)由于视觉和语言模态的丰富信息,使其易于推广到开放世界,同时保持已知和未知类别之间的平衡。

3)为了应对训练中的新挑战,作者还提出了提出的解耦训练方式和概率校准,进一步提高了对新类别的泛化能力。

论文中仅用了500个类别参与训练,就可以使UniDetector检测超过7k个类别!而这并不是代表UniDetector只能检测7K个类别,而是现有公开数据集只能让这项研究最多在7K个类别上进行检测和评估!

UniDetector算法示意:

UniDetector算法流程:

训练过程中的异构标签空间:

通过实验发现,在具有大量类别的目标检测数据集LVIS、ImageNetBoxes和VisualGenome上,UniDetector表现出强大的零样本泛化能力(也就是数据集中参与训练的图像样本为0个),超过传统监督算法平均4%以上!而在另外13个具有不同场景的目标检测数据集上,UniDetector仅使用3%的训练数据就实现了最先进的性能!

在开放世界数据集上的检测性能:

在COCO数据集上的性能:

零样本设置下 在 13 个开放世界数据集上的检测性能:

在COCO数据集上与其他开放类别的目标检测方法的比较:

在LVIS 数据集上与其他开放类别的目标检测方法的比较:

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

目标检测Trick | SEA方法轻松抹平One-Stage与Two-Stage目标检测之间的差距

少样本学习综述:技术、算法和模型

CVPR 2023 | 标注500类,检测7000类!清华大学等提出通用目标检测算法UniDetector

CVPR 2023|基于多层多尺度重建任务的MIM改进算法

CVPR 2023 | 超越MAE!谷歌提出MAGE:图像分类和生成达到SOTA!

称霸Kaggle的十大深度学习技巧

CVPR 2023 | 用于半监督目标检测的知识蒸馏方法

目标跟踪方向开源数据集资源汇总

CVPR2023 | 书生模型霸榜COCO目标检测,研究团队解读公开

Vision Transformer的重参化也来啦 | RepAdpater让ViT起飞

高效压缩99%参数量!轻量型图像增强方案CLUT-Net开源

一文了解 CVPR 2023 的Workshop 都要做什么

CVPR'23 最新 70 篇论文分方向整理|包含目标检测、图像处理、人脸、医学影像、半监督学习等方向

目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度

PyTorch 2.0正式版来了!

CVPR2023最新Backbone | FasterNet远超ShuffleNet、MobileNet、MobileViT等模型

CVPR2023 | 集成预训练金字塔结构的Transformer模型

AAAI 2023 | 一种通用的粗-细视觉Transformer加速方案

大核分解与注意力机制的巧妙结合,图像超分多尺度注意网络MAN已开源!

MIRNetV2 更快、更强、更轻量!

AI部署与算法/自动驾驶/深度学习资料汇总!

点云模型专栏(一)概述、特性、存储格式、数据集

计算机视觉各个方向交流群与知识星球

【免费送书活动】 全新轻量化模型 | 轻量化沙漏网络助力视觉感知涨点

目标跟踪专栏(一)基本任务、常用方法

CV各大方向专栏与各个部署框架最全教程整理

一文尽览 | 自动驾驶中光流的应用、挑战和改进

目标检测、实例分割、旋转框样样精通!详解高性能检测算法 RTMDet

CV算法工程师卷得要死,部署工程师却成为了香饽饽

大卷积模型 + 大数据集 + 有监督训练!探寻ViT的前身:Big Transfer (BiT)

高效轻量级语义分割综述

一文带你掌握轻量化模型设计原则和训练技巧!

CV小知识讨论与分析(7) 寻找论文创新点的新方式

CV小知识分析与讨论(6)论文创新的一点误区

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

posted @ 2023-03-24 18:13  CV技术指南(公众号)  阅读(631)  评论(0编辑  收藏  举报