CCI3.0-HQ数据集:一个500GB的高质量中文预训练数据集

2024-09-19,由北京人工智能研究院(BAAI)创建的CCI3.0-HQ数据集,是一个通过新颖的两阶段混合过滤流程显著提升数据质量的高质量子集。这个数据集的意义在于,它不仅提高了数据的纯净度,还通过实验表明,使用该数据集训练的模型在多个基准测试中取得了优于现有中文数据集的性能,为中文语言模型的发展提供了重要的资源。

 

一、研究背景:

大型语言模型(LLMs)的成功主要归功于大量、高质量的预训练语料库,这些语料库为模型提供了基础知识和推理能力,使其能够处理从创意写作到复杂问题解决的多种任务。然而,中文数据在全球网络上的代表性仍然显著不足,现有的中文开源数据集规模有限,且缺乏对中文网络数据质量分类的研究,导致数据质量不佳。

 

目前遇到困难和挑战:

1、中文数据源在线上的稀缺,限制了中文数据集的规模。

2、缺乏对中文网络数据质量分类的研究,导致数据质量不高。

3、现有的数据过滤和质量分类方法不够有效,阻碍了高性能中文语言模型的发展。

 

 

二、让我们一起来看一下 CCI3.0-HQ数据集

CCI3.0-HQ是一个500GB的高质量中文预训练数据集,通过两阶段混合过滤策略显著提升了数据质量。CCI3.0-HQ数据集包含了新闻、社交媒体和博客等多种中文语料,通过基础处理和高质量处理两个阶段,确保了数据集的覆盖面和代表性。

 

数据集构建 :

数据集的构建流程包括基础处理和高质量处理两个阶段。

1、基础处理:包括安全过滤、文本提取、去重和基本质量评估。

2、高质量处理:则通过模型驱动的方法,使用Qwen2-72B-Instruct模型来识别高质量样本。

 

数据集特点:

1、创新的两阶段混合过滤流程,显著提升数据质量。

2、包含140k的训练样本和14k的测试样本,与GPT-4注释的一致性达到80%。

3、训练了一个0.5B的质量分类器,用于高效地过滤CCI3.0数据集,产生高质量的数据集。

数据集用于训练大型语言模型,特别是在零样本设置下进行基准测试。

 

基准测试 :

通过在10个基准测试中的实验,CCI3.0-HQ在零样本设置下的性能超过了SkyPile和WanjuanV1等竞争数据集。

 

三、展望CCI3.0-HQ数据集的应用场景:

比如,我是一个作家,需要创作一篇关于中国历史的文章。

哎呀,要说写关于中国历史的文章,那可真是个技术活儿。以前啊,我得在图书馆里泡上好几天,翻遍那些厚重的史书,还得在互联网上四处搜寻资料,但往往找到的信息不是过时的就是不够准确的。有时候,好不容易拼凑起来的文章,还被编辑打回来说“资料不够权威”。

但自从有了CCI3.0-HQ这个数据集训练的系统,我的工作就发生了变化。

 

比如说,我最近在写一篇关于唐朝的文章。我只需要在这个系统里输入几个关键词,比如“唐朝”、“文化”、“经济”,系统就能给我返回一大堆相关的资料。这些资料不是随便从网上抓取的,而是经过精心筛选和过滤的,确保了信息的准确性和权威性。我甚至能找到一些不太为人知的历史趣闻,让我的文章更加生动有趣。

以前写文章,最头疼的就是核对资料的真实性,生怕一个不小心就闹了笑话。现在呢,有了CCI3.0-HQ数据集的帮助,我就像是有了一个历史领域的专家在旁边指导,不用担心资料的问题,可以把更多的精力放在文章的结构和表达上。

而且,这个系统还特别智能,它能够理解我的问题,甚至在我写作过程中给我提供灵感。比如,我在写唐朝的服饰时,系统不仅提供了当时的服饰图片,还告诉我这些服饰背后的文化意义和社会影响。这样一来,我的文章就不仅仅是对历史的简单陈述,而是有了更深的分析和解读。

CCI3.0-HQ数据集对我来说就像是打开了一扇通往历史深处的大门,让我能够更加自信、从容地在历史的长河中穿梭,写出更有深度、更有趣味的文章。

 

 

posted @ 2024-10-25 14:30  数据猎手小k  阅读(3)  评论(0编辑  收藏  举报  来源