GRAB:评估大型多模态模型在图分析任务上的性能
2024-08-22,由剑桥大学和香港大学联合创建GRAB,目标是通过包括广泛的图表类型和问题格式来全面评估前沿模型分析图形的能力。重点关注重要的分析任务,例如从图中提取关键属性和解释复杂的数据表示。
目前遇到问题和挑战:
- 现有基准测试的局限性: 大型多模态模型在视觉任务上的表现已经非常出色,但现有的许多知名基准测试对于评估这些模型的性能来说已经不够具有挑战性,它们没有足够的空间来区分模型之间的细微差别。
- 对更复杂任务的需求: LMMs 在图分析任务上,特别是解释科学和数学图形、图表的能力,是一个重要但尚未充分探索的领域。现有的基准测试没有充分覆盖这些复杂的分析任务。
- 数据质量和标注准确性问题: 在一些广泛使用的基准测试中,标签不准确的问题普遍存在,这限制了模型性能评估的可靠性。
GRAB:图形分析基准
我们将提供基准的概述,包括类别和任务的描述、示例问题和答案,以及我们的综合管理流程的概述
由2170个综合生成的图分析问题组成,涵盖了23个图表属性,包括问题格式、类别、任务和合成过程。重点关注重要的分析任务,例如从图中提取关键属性和解释复杂的数据表示。通过使用Matplotlib库合成数据,GRAB确保了高质量、无噪声的问题,同时允许控制难度和复杂性。
GRAB(GRaph Analysis Benchmark)基准测试在图分析任务中,分为4个核心任务:
- 属性侧重于分析单个函数和系列的特征;
- 函数
- 系列需要计算多个函数和系列的属性均值;
- 变换涉及确定函数经过一系列变换后的属性。
评估了多个LMMs在GRAB上的表现,发现即使是表现最好的模型,准确率也只有21.7%。
让我们来看一下GRAB应用:比如跨学科的应用
比如我是一名城市规划师,手里有一大堆地图和图表,有的是卫星图像,有的是人口分布图,还有的是交通流量分析图。
我的日常工作比如:
- 需要手动查看每张地图,要分析城市哪个区域的绿化覆盖率最高,我得一张一张图看过去,数数每张图上的绿色区域有多少。
- 要分析交通流量,我得对着那些复杂的路网图,一个节点一个节点地分析,看看哪里是高峰时段的拥堵点。
让人头大的是,这些分析往往只能聚焦于某一个方面,我很难同时分析绿化覆盖率和交通流量之间的关系。要想找出其中的关联和模式,那可是既费时又费眼。我需要常常加班,身体吃不消
使用GRAB:
我可以直接把这些地图“喂”给一个经过训练的多模态模型。这个模型能够“看懂”图像内容,理解图中的数据,甚至还能“读懂”相关的图表和文字说明。
现在我只需要给模型提个问题: 来,展示一下市中心绿化覆盖率与交通流量的关系。
模型就能迅速从多张图表中提取相关信息,分析出它们之间的关系,甚至还能生成一张新的图表来直观展示这种关系。
这样,我不仅能更全面地理解城市的各种复杂系统,而且分析的效率也大大提高了。原本可能需要几天甚至几周的工作,现在可能只需要几个小时就能完成。
哦耶,可以早点下班,享受美好生活。