EgoPlan-Bench2: 包含1321个高质量的多选题问答对,覆盖工作、日常生活、爱好和娱乐四大领域,共24个详细场景

2024-12-06,由香港大学与腾讯PCG的ARC实验室联合创建了EgoPlan-Bench2数据集,这个数据集通过模拟人类日常生活中的复杂任务,为多模态大型语言模型(MLLMs)的规划能力提供了一个严格和全面的评估平台,对于推动人工智能向通用智能发展具有重要意义。

一、研究背景:

随着多模态大型语言模型(MLLMs)的发展,它们在理解和推理能力上已经展现出了卓越的性能。然而,要实现人工通用智能(AGI),仅靠理解和推理是不够的,有效的规划能力同样至关重要。这种能力涉及到在复杂环境中做出合理决策,解决现实世界的问题。

目前遇到困难和挑战:

1、现有MLLMs在多样化场景中的规划能力尚未得到充分探索,留下了对它们全面潜力理解上的重大空白。

2、尽管已有基准测试评估了MLLMs的理解能力,但针对规划能力的评估仍然不足。

3、 缺乏一个涵盖多种现实世界场景的全面基准,以评估MLLMs作为多面手助手的潜力。

 

二、让我们来一起看一下EgoPlan-Bench2

EgoPlan-Bench2是一个旨在评估MLLMs在现实世界多样化场景中规划能力的严格和全面基准。

EgoPlan-Bench2包含日常工作任务,涵盖4个主要领域和24个详细场景,与人类日常生活紧密对齐。

数据集构建:

数据集通过半自动化的过程构建,利用第一人称视角的视频,结合手动验证,确保数据的真实性和可靠性。

数据集特点:

1、任务的真实性:任务从真实世界视频中提取,更贴近日常人类需求,展示了比人为设计任务更大的多样性。

2、行动计划的多样性:涉及与数百种不同对象的互动,超出了基本的操作技能,如拿起和放置物品。

3、视觉观察的复杂性:视觉输入来自各种真实世界场景,对象在外观、状态和放置上有所不同。此外,视觉输入可以跨越广泛的时间,使得监控任务进度和检测对象状态的关键变化变得具有挑战性。

基准测试:

评估了21个竞争性的MLLMs,包括专有和开源模型,揭示了现有MLLMs在规划任务方面面临的重大

 

三、让我们一起展望数据集应用场景

比如,你是一个机械维修工程师,正在处理一个工厂内的机械故障。你的任务是通过观察和理解机械的当前状态,以及考虑到已经进行的维修步骤,来决定下一步最合适的行动。

此时,你站在一台停止运转的机器前,这台机器因为一个未知的故障而停止工作。你的工作是从第一人称视角,通过观察和分析,确定下一步应该执行的维修动作。

任务目标

“修复机器以恢复其正常运转。”

视频和图像数据

  • 视频进度:视频显示了你之前进行的一些维修步骤,包括检查机器的外部,打开机器的外壳,检查内部的零件,以及更换了一些可疑的损坏部件。
  • 当前观察帧:当前的观察图像显示了机器内部的一个特定区域,其中有一组齿轮和轴承。你注意到其中一个齿轮似乎卡住了,而且轴承周围有油迹。

多项选择问题

考虑到视频显示的进度和当前的观察,你接下来应该采取什么行动来修复机器?

A. 继续检查机器的其他部分,寻找可能的故障点。 B. 尝试用手转动卡住的齿轮,看是否可以使其重新运转。 C. 清洁轴承,并检查是否有损坏需要更换。 D. 重新组装机器外壳,进行测试运行。

正确答案

正确答案是C:“清洁轴承,并检查是否有损坏需要更换。” 这个选择是基于当前观察到的齿轮卡住和油迹,表明轴承可能存在问题,需要清洁和检查。

这个案例展示了EgoPlan-Bench2数据集中的一个典型应用场景,即如何利用第一人称视角的视频和当前的视觉观察来指导MLLMs进行有效的规划和决策。在这个机械维修的场景中,模型需要理解视频内容,识别当前的问题,并基于这些信息做出合理的决策。这不仅测试了模型对视觉信息的理解能力,还考验了其逻辑推理和规划能力,这对于实现更高级别的人工智能任务至关重要。

 

posted @ 2024-12-09 17:31  数据猎手小k  阅读(1)  评论(0编辑  收藏  举报  来源