MMScan数据集:首个最大的多模态3D场景数据集,包含层次化的语言标注.
2024-10-24,由上海人工智能实验室联合多所高校创建了MMScan,这是迄今为止最大的多模态3D场景数据集,包含了层次化的语言标注。数据集的建立,不仅推动了3D场景理解的研究进展,还为训练和评估多模态3D感知模型提供了宝贵的资源。
一、研究背景:
随着大型语言模型(LLMs)的兴起和与其他数据模态的融合,多模态3D感知因其与物理世界的连接而受到越来越多的关注,并取得了快速进展。然而,现有的数据集限制了先前工作主要关注3D场景中对象属性的理解或对象间空间关系的认识。
目前遇到的困难和挑战:
1、现有数据集规模有限,缺乏多模态标注,难以支持复杂的3D场景理解任务。
2、先前的研究主要集中在对象级别的理解,缺乏对3D世界中复杂层次和丰富上下文的理解。
3、现有的多模态3D数据集缺乏层次化的场景结构和细粒度的定位信息,导致训练3D-LLMs效率低下,指令跟随性能不理想。
二、让我们来一起看一下MMScan数据集
MMScan是一个多模态3D场景数据集,包含了层次化的语言标注,覆盖了空间和属性理解的整体方面。
基于自上而下的逻辑构建,从区域到对象级别,从单个目标到目标间关系,全面覆盖了空间和属性理解的各个方面。整个流程结合了强大的视觉语言模型(VLMs)通过精心设计的提示来高效地初始化标注,并进一步涉及人类的校正,以确保标注的自然性、正确性和全面性。
数据集构建:
基于现有的3D扫描数据,MMScan数据集包含了109k个对象和7.7k个区域的1.4M个元标注字幕,以及超过3.04M个用于3D视觉定位和问答基准的样本。
数据集特点:
1、层次化的语言标注,从区域到对象级别,从单个目标到目标间关系。
2、多模态3D数据,包括视觉和语言信息。
3、大规模样本,用于3D视觉定位和问答任务。
3、结合了VLMs和人类校正,确保标注的质量和准确性。
MMScan数据集可以用于训练3D视觉定位和大型语言模型,并在现有基准和野外评估中测试性能。
基准测试:
MMScan提供了基准测试,用于评估代表性的基线模型,并分析它们在不同方面的能力。此外,使用这个数据集训练的模型在现有基准和野外评估中都获得了显著的性能提升。
三、让我们一起来看一下数据集的应用:
比如,我是一个室内设计师。
日常工作,我先跟客户聊半天,记下他们那些天马行空的想法。然后,我就得回到工作室,埋头苦干,把那些想法转换成一张张设计图。有时候,客户想要看个大概效果,我还得手工做个小模型。这过程,别提多费时费力了。而且,客户往往只能凭空想象,不太能直观感受到设计的实际效果。
现在呢,有了这个神奇的MMScan数据集训练的系统,就大不一样了。
就拿上周那个项目来说吧,客户是对新婚夫妇,想要把他们的小家打造成既温馨又时尚的空间。他们给了我一堆想法,比如老婆想要个大大的步入式衣柜,老公想要个可以打电动的游戏角落。
我一边听,一边就在MMScan系统里给他们现场演示。 首先,我用了客户家的平面图,系统很快就构建出了一个3D模型。然后,我根据他们的描述,直接在系统里搜寻相应的家具模型,什么现代风格的沙发、艺术感的吊灯,统统拖拽进来。这比我以前画设计图快多了,而且客户可以立刻看到这些家具摆在家里的样子。 接下来,我们来调整空间布局。我记得以前,我得一张张画图,一次次修改,特别耗时。现在,我在系统里轻轻一拖,沙发就换位置了;一点屏幕,墙壁就换了个颜色。我给客户展示了几种不同的布局方案,他们可以站在屏幕前,像玩游戏一样,转动视角,感受不同的空间感。 最后,我们来挑材质和颜色。他老婆想要个粉色的卧室,但又担心太俗气。我在系统里给她试了几种不同的粉色,从柔和的裸粉到活泼的珊瑚粉,还换了几种不同的材质,比如光滑的油漆墙面和有纹理的壁纸。客户可以实时看到效果,就像这些颜色和材质真的刷在了墙上一样。
整个过程,我们就像在玩一个室内装修的电子游戏,客户的想法能够立刻变成眼前的现实。他们超级兴奋,因为这是他们第一次这么直观地感受到设计的效果。而且,我也不用没日没夜地画图、做模型了,效率高了不知道多少倍!