CMM-Math:用于数学推理的中文多模态数据集

2024-09-05 ,由华东师范大学发布 CMM-Math ,是一个用于数学推理的多模态数据集,其中每个问题可能包含多个图像,专为 LMM 设计。目标是提升大型多模态模型的数学推理能力,展示了专门的数学语言模型在处理具有视觉背景的复杂数学问题方面的有效性。

一、目前遇到问题和挑战:

1、中文多模态数学数据集的缺失:
缺乏专门针对中文的多模态数学数据集,限制了对中文语境下数学推理能力的研究和模型开发。
2、现有模型在多模态数学推理上的表现不足:
现有的大型多模态模型(LMMs)在处理结合文本和视觉元素的数学问题时面临挑战,表现不佳。
3、模型训练资源不足:
缺少专门用于训练和微调LMMs的高质量中文数学数据集。
4、数学推理能力的全面评估:
需要全面评估模型在不同数学领域(如代数、几何、统计等)的推理能力。

 

二、解决方案

1、CMM-Math数据集 :
数据集包含 28,069 个问题,具有丰富的文本和视觉信息。
文本问题 21200 道,多模态问题 6869 道,可分为选择题、填空题、是否题和分析题。
我们还将数据集分为 12 个层次,分别对应小学一年级到高中三年级的基础教育阶段,以确保数据集在教育实践中的适用性和参考价值。
CMM-Math 包含 13 个知识点,涵盖了初中和高中遇到的大部分数学领域,特别是逻辑、代数、计数、算术、组合学、图论、拓扑学、统计学、立体几何、度量几何、解析几何、描述几何、组合几何和变换几何。
特别的是,数据集根据三个维度进行了精细分类:成绩、主题和问题类型

 

2、多模态数学LMM(Math-LMM):
通过多模态数学LMM(Math-LMM),以处理多图像和文本片段混合输入的问题。
我们通过三个阶段训练我们的模型,包括基础预训练、基础微调和数学微调,来提升数学推理能力。

 

1、基础预训练(Foundational Pre-training):
在这个阶段,模型使用大型语言模型(Large Language Model)和视觉编码器(Vision Encoder)来处理文本和图像数据。
适配器(Adapter)被用于调整视觉编码器的输出,使其与语言模型的输入格式对齐。
模型在这一阶段学习如何理解和处理基础的文本和图像数据。
2、基础微调(Foundational Fine-tuning):
在基础预训练之后,模型进入微调阶段,进一步优化适配器和语言模型的参数。
这个阶段可能涉及到使用特定类型的数据(如数学问题)来调整模型,使其更好地适应目标任务。
3、数学微调(Mathematical Fine-tuning):
最后,在数学微调阶段,模型专注于数学领域的数据,以提高其解决数学问题的能力。
这个阶段使用数学相关的文本和图像(如数学公式、图表等)来训练模型,使其能够理解和解决复杂的数学问题。
在不同的训练阶段中,适配器都负责将视觉信息与语言模型的输入进行有效的融合。

三、让我们来看一下数据集应用场景:数学知识图谱构建

比如,我是一名数学老师,平常在准备数学课的时候,需要花费时间从各种资源中找资料,进行归纳概念、公式和解题方法。将这些知识点串起来,形成一个有逻辑的教学框架是非常花时间的。
通过使用基于CMM-Math数据集构建的数学知识图谱工具。这个工具自动将数学概念、公式、定力和问题解决方法组织成一个相关关联的网络。
比如要解决二次方程,只需要在工具中输入 二次方程。立马就显示出于二次方程相关的所有概念,比如如“判别式”、“求根公式”、“韦达定理”等。
这些概念不仅以图形化的方式展示出来,而且还提供了它们之间的逻辑关系和应用实例。
我可以轻松地根据这些信息来设计课程,我的教学内容全面又连贯。太开心了。

 

posted @ 2024-09-06 18:21  数据猎手小k  阅读(6)  评论(0编辑  收藏  举报  来源