摘要: 2024-09-05 ,由华东师范大学发布 CMM-Math ,是一个用于数学推理的多模态数据集,其中每个问题可能包含多个图像,专为 LMM 设计。目标是提升大型多模态模型的数学推理能力,展示了专门的数学语言模型在处理具有视觉背景的复杂数学问题方面的有效性。 一、目前遇到问题和挑战: 1、中文多模态 阅读全文
posted @ 2024-09-06 18:21 数据猎手小k 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 2024-03-26 , 由中国科学院深圳先进技术研究院、北京大学、中国科学技术大学等联合发布数据集COIG-CQIA,这是一个高质量的中文指令微调数据集,包括问答和文章,以提供与人类互动一致的指令微调数据。 一、目前遇到困难和挑战 1、语言和文化差异: 中文具有独特的语言特征和文化深度,与英文存在 阅读全文
posted @ 2024-09-06 16:47 数据猎手小k 阅读(7) 评论(0) 推荐(0) 编辑
摘要: IEPile:由浙江大学和蚂蚁集团等联合发布一个全面的双语信息抽取(IE)指令语料库 2024-04-11 ,由浙江大学;蚂蚁集团;浙江大学-蚂蚁集团知识图谱联合实验室联合发布IEPile,一个全面的双语(英语和中文)IE指令语料库,包含约3.2亿个标记。 现在目前遇到问题和挑战 1、大型语言模型( 阅读全文
posted @ 2024-09-06 16:43 数据猎手小k 阅读(7) 评论(0) 推荐(0) 编辑