Fork me on GitHub

世界模型和空间智能

空间思考:多模态大型语言模型如何看待、记忆和回忆空间

VSI-Bench:我们引入了一个高质量的基准,用于评估 MLLM 的 3D、基于视频的视觉空间智能
评估:我们在开源和闭源 MLLM 上对 VSI-Bench 进行了评估,发现 MLLM 表现出有竞争力的(尽管不如人类)视觉空间智能。
语言分析:我们将 VSI-Bench 的性能归因于空间智能能力,并展示空间和语言智能之间的差异。
视觉分析:我们阐明了 MLLM 如何通过认知图记住空间,并展示了明确地记住空间如何提高空间能力。
 

 

图 1:当呈现环境视频记录时,多模态 LLM 能否“进行空间思考”?它们能否构建准确、隐式的“认知地图”,从而回答有关空间的问题?使用 MLLM 增强空间智能的优势和局限性是什么?我们通过设置视频数据供 MLLM 观看、构建 VQA 基准来检查它们的回忆能力,以及检查 MLLM 实际记住和理解的内容,深入研究这些问题。
 
我们提出了一个基于视频的新型视觉空间智能基准 (VSI-Bench),其中包含 5,000 多个问答对,并发现 MLLM 表现出具有竞争力的视觉空间智能,尽管不如人类。我们的评估表明,MLLM 表现出具有竞争力的视觉空间智能,但仍然远远低于人类水平。为了了解 MLLM 的行为,我们探索模型以表达它们在语言和视觉上对空间的思考方式,并发现虽然空间推理能力仍然是 MLLM 达到更高基准性能的主要瓶颈,但局部世界模型和空间意识确实出现在这些模型中。
 

VSI 工作台

基准概述:我们开发了 VSI-Bench,这是一个用于评估多模态 LLM (MLLM) 视觉空间智能的基准,使用来自 288 个自我中心视频的 5,000 多个问答对,这些视频来自公共室内 3D 场景重建数据集 ScanNet、ScanNet++ 和 ARKitScenes 的验证集。VSI-Bench 包括三种任务类型下的八个任务:配置、测量估计和时空。有关 VSI-Bench 中任务的概述,请参见图 2,有关数据集统计信息,请参见图 3。VSI-Bench 经过迭代改进以提高质量,为研究 MLLM 和 3D 重建之间的联系奠定了基础。

 

 VSI-Bench 构建: 我们开发了一套强大的流程来构建 VSI-Bench,从而能够大规模生成高质量的问答 (QA) 对。从数据收集和统一开始,我们将各种 3D 室内场景数据集标准化为统一的元信息格式,并结合对象类别、边界框和视频规范,以支持与数据集无关的 QA 生成。QA 对是使用来自元信息和特定于任务的问题模板的自动注释生成的,路线规划任务则由人工注释。为了确保质量,我们实施了人机协作的审查流程,通过解决评估人员标记的歧义和错误,迭代地完善问题模板、注释和 QA 生成规则。

 评估设置:我们对来自不同模型系列的 15 个支持视频的 MLLM 进行了基准测试。对于专有模型,我们考虑 Gemini-1.5 和 GPT-4o。对于开源模型,我们评估来自 InternVL2、ViLA、LongViLA、LongVA、LLaVA-OneVision 和 LLaVA-NeXT-Video 的模型。所有评估均在零样本设置下进行,使用默认提示和贪婪解码以确保可重复性。使用多项选择题答案 (MCA) 准确度或我们提出的数值答案 (NA) 任务的平均相对准确度 (MRA) 来评估任务。

主要结果:人类评估者的平均准确率达到 79%,比最佳模型高出 33%,在配置和时空任务上的表现接近完美(94%-100%)。然而,在需要精确估计的测量任务上,差距缩小了,MLLM 在定量任务中表现出相对优势。在专有模型中,Gemini-1.5 Pro 脱颖而出,尽管只在 2D 数字数据上进行训练,但它显著超过了机会基线,并在绝对距离和房间大小估计等任务中接近人类表现。表现最佳的开源模型,如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B,取得了有竞争力的结果,仅落后于 Gemini-1.5 Pro 4%-5%。然而,大多数开源模型(7/12)都低于机会基线,暴露出视觉空间智能的明显缺陷。

盲评估:我们将 MLLM 的性能与“机会水平(频率)”和“视觉障碍”(盲)结果进行比较,这些结果取自六个顶级模型(三个开源模型和三个闭源模型)。“启用-禁用”的持续改进和“禁用-机会”的普遍退化凸显了视频输入对于 VSI-Bench 的重要性,因为盲模型的表现不如机会。然而,MLLM 在绝对距离估计、路线规划和相对方向等任务上难以超越机会水平,这反映了这些任务的固有难度。有趣的是,“视觉障碍”模型在物体大小任务上的表现明显优于机会,这可能是由于整合了语言模型训练中的常识知识。

 

MLLM 如何从语言角度思考空间问题

为了更好地理解模型成功或失败的时间和原因,并阐明它们所拥有的视觉空间智能的各个方面,我们研究了 MLLM 如何从语言角度进行空间思考。

案例研究:在成功示例中,该模型展示了高级视频理解能力,具有准确的时间戳描述和正确的逐步推理过程。全局坐标系的使用表明,MLLM 可以通过整合空间背景和推理来构建隐式世界模型。在错误情况下,该模型在自我中心-他心转换中失败,由于依赖自我中心视图而错误地解释视频序列,导致空间推理有缺陷。

MLLM 如何以视觉方式思考空间

由于人类在进行空间推理时会下意识地构建空间的心理表征,因此我们探索 MLLM 如何记住空间。

通过认知地图进行探索:我们通过提示 Gemini-1.5 Pro 根据视频输入预测 10 x 10 网格内的物体中心位置来评估 MLLM 创建认知地图(一种空间表示框架)的能力。通过将预测的物体距离与地面真实地图进行比较来测量准确度,将一个网格单元内的偏差视为正确。该模型在定位近距离物体方面实现了 64% 的准确率,这表明其具有强大的局部空间意识。然而,该模型在较大的距离上确实存在困难,这反映了它在从离散视频帧形成全局空间表示方面面临的挑战。

 

 通过认知地图实现更好的距离推理:我们探索认知地图是否可以通过提示 Gemini-1.5 Pro 从视频输入生成地图并用它来回答相对距离问题来增强 MLLM 的空间推理能力。结果显示,使用模型自己的地图可将准确度提高 10%,使用地面实况地图可将准确度提高 20%-32%,这凸显了准确的心理意象对于强化全局场景拓扑的价值。这表明认知地图是一种有前途的方法来改善 MLLM 的视觉空间推理能力。

结论

我们通过构建 VSI-Bench 并研究 MLLM 在其上的表现和行为来研究模型如何观察、记忆和回忆空间。我们对 MLLM 如何在语言和视觉上思考空间的分析确定了视觉空间智能的现有优势(例如,突出的感知、时间和语言能力)和瓶颈(例如,自我中心-他心转换和关系推理)。虽然现行的语言提示方法无法改善空间推理,但构建显式认知图确实可以增强 MLLM 的空间距离推理能力。

@article{yang2024think,
    title={{Thinking in Space: How Multimodal Large Language Models See, Remember and Recall Spaces}},
    author={Yang, Jihan and Yang, Shusheng and Gupta, Anjali W. and Han, Rilyn and Fei-Fei, Li and Xie, Saining},
    year={2024},
    journal={arXiv preprint arXiv:2412.14171},
}
posted @ 2025-01-08 17:07  stardsd  阅读(27)  评论(0编辑  收藏  举报