OVT-B:迄今为止最大的开放词汇多目标跟踪数据集

2024-10-23,由浙江大学软件技术学院和中国科学院深圳先进技术研究院等联合创建OVT-B,这个数据集的规模和多样性为开放词汇多目标跟踪(OVMOT)研究开辟了新的道路。

 

一、研究背景:

在人工智能领域,开放词汇目标感知正成为一个重要议题,旨在识别在训练期间未见过的新类别对象。尽管在单张图像中的开放词汇目标检测(OVD)已被广泛研究,但视频序列中的开放词汇目标跟踪(OVT)却鲜有研究,主要原因是缺乏基准数据集。

多目标跟踪(MOT)在跟踪特定类别(如人类和车辆)方面取得了显著进展。然而,传统的MOT任务主要关注于跟踪人类和车辆等目标类别,这限制了方法在更广泛目标类别上的扩展,降低了它们在实际应用中的价值。

 

目前遇到困难和挑战:

1、传统MOT方法在扩展到更广泛目标类别时遇到困难,限制了其在实际场景中的应用。

2、开放词汇目标检测(OVD)虽然已在研究中展示出直接检测未见类别对象的能力,但将其应用于多目标跟踪(MOT)模型时,需要新的基准数据集来评估性能。

3、现有的开放词汇跟踪数据集规模较小,类别有限,无法满足开放词汇研究中对大规模评估的需求。

 

 

二、让我们一起来看一下OVT-B数据集

OVT-B是一个大规模的开放词汇多目标跟踪数据集,包含丰富的类别和高密度的注释,为OVMOT研究提供了新的基准。

数据集包含了1,973个视频,涵盖了1,048个不同的对象类别,拥有637,608个边界框注释。这些视频源自不同的数据集,包括多目标跟踪(MOT)、视频实例分割(VIS)和视频目标检测(VOD)等任务。

 

数据集构建 :

视频数据的选择基于几个标准:每个视频必须包含多个对象;数据集应该代表多种类别;大多数对象必须在运动中,提供轨迹信息;数据必须是原始的,不能源自其他数据集。

 

数据集特点 :

1、丰富的类别:包含1,048个不同的类别,分为534个基础类别和514个新类别。

2、大规模:拥有大量的注释帧、轨迹、边界框和视频数量。

3、高密度目标:不限制每帧的目标数量,允许更复杂的场景评估。

4、完整的注释:提供了更高帧率的注释,允许模型充分利用视频中的每一帧信息。

OVT-B数据集可以用于训练和评估开放词汇多目标跟踪模型。它提供了一个统一的格式,以便于研究人员使用不同的跟踪算法进行性能比较。

 

基准测试 :

OVTrack+的基线方法,该方法结合了外观和运动信息来提高跟踪性能,并在OVT-B数据集上进行了广泛的实验,验证了数据集的有效性和方法的有效性。

 

三、让我们一起展望数据集应用:

比如,我在一家大型工厂工作,就是那种典型的监控室工作,要监控不同类型的机器和车辆的运行状态。

能想象出来吗?就是那种墙上挂满了屏幕,每个屏幕上都显示着工厂不同角落的实时画面。我的工作就是盯着这些屏幕,看有没有机器出故障或者车辆偏离路线。这活儿可不轻松,眼睛得像扫描仪一样,一刻不停地在各个屏幕上扫来扫去。

比如说,有一次,生产线上的一个机械臂突然停了,我得赶紧从十几个画面里找到那个机械臂,然后通知维修组。有时候,运输原料的大货车在厂区内迷路了,我还得判断它在哪儿,然后指导它回到正确的路线上。这工作,精神得高度集中,稍微一走神,可能就出大事了。

现在用上了这个用OVT-B数据集训练的AI系统,我的工作就不一样了。

现在,早上我只需要打开电脑,AI系统就会给我一个总览界面,上面清楚地显示着工厂里每台机器和每辆车的状态。这个界面上,每台机器和车辆都用不同颜色的框框标出来了,就像玩电子游戏一样直观。

大概10点多的时候,AI系统突然发出了警报。我一看,原来是仓库区的一个叉车没按预定路线走,开始在不该出现的地方转悠。我正准备通知叉车司机,但AI系统已经自动调出了那个区域的摄像头画面,并且给出了叉车应该走的路线。我只需要点一下“发送指令”,系统就自动把正确的路线发给了叉车司机。

还有,下午的时候,生产线上的一台包装机速度变慢了,AI系统立刻就识别出来了,因为它通过OVT-B数据集学会了包装机的正常工作模式。系统自动分析了机器的运行数据,判断可能是传送带卡住了。我直接通过系统呼叫了维修组,他们过去一看,还真是传送带上卡了东西。

现在有了这个系统帮我盯着工厂里的一举一动,让我能更高效、更轻松地完成工作。

 

posted @ 2024-10-25 18:13  数据猎手小k  阅读(5)  评论(0编辑  收藏  举报  来源