真正的包罗“万”象!上海AI实验室、港中文等提出V3Det目标检测数据集,含有13029个类别!
前言 数据集标签纷繁复杂,一直缺少系统、完善的分类体系,而这恰恰又是通用目标检测大模型的重要基础。
今天,给大家介绍一篇超级“狠活”文章,来自上海人工智能实验室和香港中文大学的学者提出了一个海量类别的目标检测数据集V3Det,总类别数达到13029!
本文转载自我爱计算机视觉
仅用于学术分享,若侵权请联系删除
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!
V3Det: Vast Vocabulary Visual Detection Dataset
论文作者:Jiaqi Wang,Pan Zhang,Tao Chu,Yuhang Cao,Yujie Zhou,Tong Wu,Bin Wang,Conghui He,Dahua Lin
作者单位:Shanghai AI Laboratory(上海人工智能实验室); The Chinese University of Hong Kong(香港中文大学); Centre of Perceptual and Interactive Intelligence
论文链接:http://arxiv.org/abs/2304.03752v1
这个世界有多少种类别的物体?仅目前已经发现的昆虫,就有1000多万种。而目前计算机视觉领域大部分的数据集类别都是非常有限的,之前最多类别的LVIS有1203类,所以在真实世界中检测任意对象的研究往往是在类别受限的目标检测数据集上训练和评估的。
V3Det,正是为了应对这一挑战而开发的,不仅图像数量多(245k),而且类别个数多(13029),且具有精确的标注(1753k个包围框)。
相信构建这一数据集过程也是异常费时费力的!
为更好地理解数据,作者们还为V3Det构建了层次分类树,可以方便访问和研究类别之间的包含关系,每个类别都有专业的描述。
V3Det提供了广泛的探索空间,可以在广泛和开放的目标检测任务上进行广泛的基准测试,为研究提供新的观察、实践和见解。它有潜力成为开发更普遍的视觉感知系统的重要参考数据集!
V3Det与其他知名目标检测数据集的统计比较:
V3Det类别数是之前最大数据集的10倍!
如此大规模多类别的数据集标注过程肯定是异常艰辛的,为了保证标注数据的准确性,数据创建团队付出了大量的工作。
V3Det的标注过程:
包括分组、粗粒度标注、合并与联合验证、细粒度标注、类别的验证、类别描述等过程。
比较有意思的是,在对类别进行描述的步骤中,ChatGPT也参与进来。
下图是对V3Det和其他数据集的统计分析:
包括类别分布、均值分辨率、包围框分布。
下图展示了常见的目标检测算法在V3Det上评估的表现:
作者还根据不同采样方法、表示方法、算法框架等对数据集进行了各种评估:
下面这张图展示了类别层次图的可视化,相当震撼!
V3Det数据集中“粗类别”的统计和描述:
可见Animal & Human 相关的类别是最多的,达到7485类,其次是Flower,1911类。
类别描述示例:
标注示例:
包围框真是密密麻麻!(数据创建团队辛苦了!!)
这是一项特别有意义的工作,也是非常有价值的资产,相信能够促进大规模海量类别目标检测的相关研究。
V3det 数据集已上架 OpenDataLab,欢迎大家探索、体验:https://opendatalab.org.cn/V3Det
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
【技术文档】《从零搭建pytorch模型教程》122页PDF下载
QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。
其它文章
比Meta「分割一切AI」更全能!港科大版图像分割AI来了:实现更强粒度和语义功能
Meta Segment Anything会让CV没前途吗?
CVPR'2023年AQTC挑战赛第一名解决方案:以功能-交互为中心的时空视觉语言对齐方法
6万字!30个方向130篇 | CVPR 2023 最全 AIGC 论文汇总
ICCV2023 | 当尺度感知调制遇上Transformer,会碰撞出怎样的火花?
新加坡国立大学提出最新优化器:CAME,大模型训练成本降低近一半!
SegNetr来啦 | 超越UNeXit/U-Net/U-Net++/SegNet,精度更高模型更小的UNet家族
libtorch教程(一)开发环境搭建:VS+libtorch和Qt+libtorch
NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子使用
NeRF与三维重建专栏(二)NeRF原文解读与体渲染物理模型
BEV专栏(一)从BEVFormer深入探究BEV流程(上篇)
可见光遥感图像目标检测(三)文字场景检测之Arbitrary