COIG-CQIA 由中科院深圳先进技术研究院、北京大学等联合发布高质量多样化中文指令微调数据集

2024-03-26 , 由中国科学院深圳先进技术研究院、北京大学、中国科学技术大学等联合发布数据集COIG-CQIA,这是一个高质量的中文指令微调数据集,包括问答和文章,以提供与人类互动一致的指令微调数据。

一、目前遇到困难和挑战

1、语言和文化差异:

中文具有独特的语言特征和文化深度,与英文存在显著差异,为指令微调任务带来了挑战。

2、数据集局限性:

现有的中文指令微调数据集要么规模有限,要么质量不高。

目前中文指令调优数据集被分类为三种:

来源于英文数据集的转换: 通过将英文数据集翻译成中文得到的。
由LLM生成的数据集: 通过大型语言模型(LLM)自动生成,包括但不限于基于模版的生成、通过给定的上下文提示生产文本等,为各种自然语言处理(NLP)任务提供训练数据。
自生成的指令调优数据集: 通过大型语言模型(LLM)自动生成,模型被用来生成指令,然后模型再次被用来生成这些指令的答案,专门用于指令调优。
3、数据质量:

自动生成的数据集可能包含噪声数据,导致模型产生幻觉(hallucination)。

4、多样性和覆盖范围:

需要构建一个覆盖多种领域、具有多样性的高质量数据集,以确保模型能够理解和执行各种类型的中文指令。

5、对齐人类意图:

如何确保模型的训练目标与人类的意图一致,从而让模型能够准确理解和执行人类指令。

COIG-CQIA:
高质量的中文指令微调数据集有助于提升LLMs在中文自然语言处理(NLP)任务中的表现。



二、数据集介绍

COIG-CQIA一个高质量、多样化的中文指令微调数据集。数据集由多个子集组成,每个子集针对不同的指令类型和应用场景。

数据集来源涵盖了中国互联网上社交媒体、百科全书、内容创作平台、考试等多个领域。包括问答社区、维基百科、考试题目和现有的NLP数据集。收集到的数据,通过人工审核和自动化工具相结合的方式,对数据进行清洗和重组,以确保数据集的质量。

三、数据集应用

提升搜索结果的相关性: 搜索引擎用这个数据集训练后,能更好地理解用户的搜索意图,提供更准确、更相关的搜索结果。
比如想要了解最新的科技动态,就是特别火的“量子计算”是啥玩意儿。

以往:打开搜索引擎,输入“量子计算”。结果,搜索引擎给他列出了一大堆结果,有学术论文、购物网站卖量子计算相关书籍的、甚至还有量子计算游戏的。我们需要慢慢翻,找了半天才找到几个靠谱的科普文章,费时又费力。

后来,搜索引擎用上了COIG-CQIA数据集进行了升级。输入了“量子计算”,但这次,搜索引擎马上就明白了我想要的是科普知识,不是购物链接或者游戏。搜索引擎直接给我展示了几个最新的、通俗易懂的科普文章,还有视频讲解。点进去一看,嘿,这不正是我想要的嘛!文章讲得深入浅出,视频也生动有趣。

而且,因为搜索引擎更懂我了,它还推荐了几篇关于量子计算在实际应用中的文章,比如在加密、药物研发等领域的应用。

 

posted @ 2024-09-06 16:47  数据猎手小k  阅读(7)  评论(0编辑  收藏  举报  来源