论文解读 -TongGu:专注于文言文的大模型
- 一、简要介绍
文言文是通往中国古代丰富遗产和智慧的门户,但其复杂性给大多数没有专业知识的现代人构成了巨大的理解障碍。虽然大型语言模型(LLM)在自然语言处理(NLP)方面显示出了显著的能力,但它们在文言文理解(CCU)方面存在困难,特别是在对数据的要求和知识密集型的任务方面。为了应对这一困境,论文提出了TongGu(意为理解古代和现代),第一个专注于CCU的LLM。首先,论文构建了一个来自丰富的文言文语料库的两阶段指令调优数据集ACCN-INS,旨在解锁LLM的全部CCU潜力。其次,论文提出了冗余感知调优(RAT),以防止灾难性遗忘,使TongGu能够在保留其基础知识的同时获得新的能力。第三,论文提出了一种基于知识基础的CCU检索-增强生成(CCU-RAG)技术来减少幻觉。在24个不同的CCU任务上进行的广泛实验验证了TongGu的优越能力,强调了RAT和CCURAG的有效性。
- 二、背景
文言文是连接当代与中国古代智慧的重要桥梁,是对历史社会生活和文化实践的启示。然而,文言文和现代汉语之间的显著语言差异,包括词汇和句法,使得这一宝贵的遗产对非专家来说非常具有挑战性。
大型语言模型(LLMs)的最新进展在处理各种自然语言处理(NLP)任务方面显示出了显著的能力,促使研究人员探索他们在文言文理解(CCU)专业领域的能力。然而,现有的模型,包括通用的和初步的专注于CCU的LLM,经常面临需要大规模训练数据或广泛领域知识的任务。这种困境主要源于两个原因:缺乏专门的指令调优数据集,以及模型在处理没有足够的事实基础的知识密集型任务时产生幻觉的先天倾向。
为了解决这些挑战,论文提出了TongGu,一个开创性的垂直领域LLM,同时也是最熟练的CCU专家。论文首先设计一个自动pipeline来构建文言文文本的指令数据,从而产生ACCN-INS(古代汉语指令的缩写),这是第一个公开的针对不同CCU任务的CCU指令数据集。随后,TongGu分别进行了两阶段的指令调优,以优化数据需求和数据高效的任务。它首先使用大规模训练数据对需要数据需求的任务进行微调,如文言文到现代中文翻译,然后对数据高效任务进行微调,如使用小规模数据的标点符号。为了防止在两阶段微调过程中的灾难性遗忘,论文提出了冗余感知调优(RAT),一种新的稀疏微调(也叫参数高效微调(PEFT))方法,该方法根据层冗余来识别和冻结当前任务的最关键的层。RAT在保留先验学习知识的同时,有效地为模型注入了新的能力,从而保证了TongGu的基础知识的稳定性和保留性。此外,论文提出了一种有效的CCU检索评估增强生成(CCU-RAG)方法,该方法显著减轻了知识密集型任务中的幻觉倾向,进一步提高了TongGu的表现。
综上所述,论文的贡献如下:论文开发了TongGu,一个开创性的垂直领域LLM,擅长管理广泛的CCU任务。
•论文设计了一个从文言文文本中自动生成指令数据的pipeline,并构建了ACCN-INS数据集,这是第一个公开的文言文指令数据。
•论文提出了冗余感知调优(RAT),一种稀疏微调方法,以缓解两阶段微调中的灾难性遗忘。
•为了减少知识密集型文言文任务中的幻觉,论文引入了一种特定任务的有效检索增强生成(RAG)方法。
三、ACCN-INS数据集
在文言文问答(QA)任务中,手工注释的复杂性需要广泛的人类专业知识,从而导致劳动密集的过程。为了减轻劳动强度,利用LLM进行自动数据注释成为一种自然而有效的解决方案。然而,LLM仍然倾向于在数据生成过程中无意中引入不准确性。为了解决这个问题,论文提出了一种半自动标注方法,该方法使用对齐的LLM结合了经典的中文语料库,从而为专门的CCU任务生成可靠的教学数据。
首先,论文从多个公共来源收集了文言文的语料库,如教科书和试卷。然后,论文设计了一个pipeline来将这些数据转换为指令格式,如图1所示。
已标注的数据。已标注的数据指的是配备了精心策划的标签的数据,如朝代和一首诗的作者。由于其高度结构化的组织结构,可以使用指令模板简单地合成大量的指令数据。具体来说,对于每个任务,论文首先提供8个由人类专家手工制作的指令示例作为上下文示例,促使对齐的LLM生成更广泛的不同指令模板。最后,论文可以将结构化数据填充到这些指令模板中,以获得QA格式的指令数据。.
未标注的数据。未标注的数据指的是未标注的文本片段,如对某些诗人的介绍,其中诸如朝代、生活经历和代表性作品的信息混杂在同一文本片段中。论文采用了一种阅读理解的方法,将未标注的文本片段作为参考材料,并要求对齐的LLM从它们中提取QA对。类似地,论文使用8个人为编写的QA对作为上下文示例。
利用提出的数据生成pipeline,利用ChatGPT作为对齐模型,获得4020136个文言文指令数据实例,其中4014355个来自结构化文本,5781个来自非结构化文本。在表1中,论文描述了通过各种生成方法获得的数据的数量,以及跨整个指令数据集的指令和输出的平均长度。ACCN-INS中的数据需求任务数据包含400万个文言文到现代汉语翻译语料库样本,图2显示了ACCN-INS中各种数据高效任务数据的数据统计。如图2 (a)所示,长度分布表明响应通常比查询更长,有许多响应超过96个字符。这表明了ACCN-INS数据的丰富和全面性,有利于模型开发更深层次的CCU熟练度。ACCN-INS的详细任务类型和相应的样本计数如图2 (b)所示,展示了该数据集的多样性和全面性。每个任务的详细示例包含在附录A中。
四、TongGu
TongGu是一个专为文言文理解(CCU)设计的通用LLM,其能力基于三个核心步骤构建,如图3所示。首先,论文在由文言文和现代汉语组成的46亿个混合语料库上对TongGu进行增量预训练,以丰富其CCU知识。其次,利用PEFT方法冗余软件调优(RAT)对数百万条指令数据进行了微调,不仅提高了多任务理解的熟练程度,而且保证了高效的指令调优。第三,论文介绍了CCU-RAG,一种特定任务的检索增强生成(RAG)机制,以缓解知识密集型任务中的幻觉。通过这三个步骤,TongGu展示了其有效处理24个不同的CCU任务的能力,使其成为理解文言文的有力工具。
4.1增量预训练
对于TongGu的增量预训练,论文整理了由文言文和现代汉语文本组成的混合增量预训练数据,共计24.1亿token(使用来自百川2-7B-base的编译器)。表2列出了各种数据源及其各自的大小和抽样比例。文言文:文言文文本主要来源于Daizhige和网络爬虫的汇编,涵盖了历史、诗歌、医学、佛教研究等不同领域。论文使用了一个受RedPajama启发的数据清理pipeline来执行文本格式标准化和文档级重复数据删除。现代中文:论文利用由MNBVC策划的wiki-zh语料库,并进一步执行行级重复数据删除。
论文利用百川2-7B-Base作为基础模型,并根据所策划的混合数据进行增量预训练。根据GPT中概述的标准语言建模范式,论文训练模型根据之前token提供的上下文预测下一个token。因此,论文开发了一个文言文基础模型,TongGu-7b-base,准备为后续的微调提供一个强有力的基础。更多的训练细节,如关于训练时间和硬件规格的信息,见附录B,表9。
4.2两阶段指令微调
不同的CCU任务可以根据它们的数据需求分为数据需求和数据高效。前者需要一场永不满足的数据来获得令人满意的表现,这主要体现在文言文和现代汉语之间的翻译任务上。然而,后者能够通过适度的数据提供,如标点符号恢复或主题分类,来实现令人满意的性能。解决数据需求和数据高效的任务需求,论文进行两阶段微调过程,首先微调TongGu数据需求的翻译任务与大量的数据,然后微调数据高效任务标点和主题分类等较小规模的数据。通过渐进式的微调,该模型可以有效地利用主要翻译任务的大规模数据,同时在有限的数据下实现多个任务的高效迁移学习和专业化,从而提高全面的CCU任务熟练程度。
尽管在培养两阶段微调的一般能力方面具有优势,但这种方案仍有可能面临灾难性的遗忘问题。为了缓解这个问题,论文提出了一种新的PEFT方法,称为冗余感知调优(RAT)。最近的研究显示,LLM中的某些层是高度冗余的,这表明它们可以在不显著影响下游任务的执行的情况下被删除。在这一灵感的基础上,RAT识别并保留这些冗余的层,同时在新任务的训练中冻结其他层。通过选择性地只更新被认为对以前的任务不必要的冗余层,这种方法有效地保留了所获得的知识,从而减轻了信息遗忘,同时使其能够有效地适应新的任务。
算法1总结了RAT的生成过程。首先,论文随机选择一部分训练数据作为校准集,以提取和监测模型的内部动态。随后,论文在推理过程中收集每个模型层的隐藏状态表示,并串联计算I/O隐藏状态之间的余弦相似度。第i层的I/O隐藏状态之间的余弦相似度计算方法为:
最后,论文冻结了相似性分数较低的层。由于更深层次存在更大程度的冗余,论文实施了分组和排序策略,以避免仅对更深层次进行微调而对模型学习能力的潜在损害。TongGu各层根据其深度分为从最浅到最深的N组。在每一组中,论文有选择地对显示出最高冗余度的层进行微调,而其余的层则保持冻结。
数据需求任务微调:论文使用来自ACCN-INS的数据需求任务的数据进行微调,从而得到了名为TongGu- 7B-trans的模型。数据效率任务微调:论文继续使用来自ACCN-INS的数据效率任务的数据来对TongGu-7b-trans模型进行微调,将模型的能力培养到更广泛的CCU任务中。此外,论文过滤了来自ShareGPT的人类和人工智能助手之间的10,000个对话样本作为补充数据,进一步增强了模型的会话能力。结果,论文得到了最终的模型Tonggu-7B-Doucelt。为了解决训练过程中的灾难性遗忘问题,论文采用了所提出的RAT方法,在两个阶段N设置为8。在第一阶段,增量预训练数据的一个子集作为校准集。在第二阶段,文言文到现代汉语翻译语料库的一个子集被用于同样的目的。更多细节见附录B。
4.3 CCU-RAG
在知识密集型的CCU任务中,通用的LLM和这一领域的最初努力通常会出现严重的幻觉。最近,检索-增强生成(RAG)已被证明是缓解LLM中这些幻觉的有效解决方案。因此,论文提出了CCU-RAG,一个特定于任务的高效RAG框架,以提高TongGu生成输出的准确性和可靠性。
首先,从教学数据中提取知识密集型样本,包括源检索、作者检索、前句背诵、下句背诵、整诗背诵。随后,这些样本被重新格式化为两种类型的数据,以模拟RAG中的两个步骤,如图4所示。一种格式保留了原始查询,响应将被重新表述为支持搜索和检索的多级别键-值对。另一种格式涉及在原始查询中附加参考材料,同时保留原始响应。同CCU-RAG系统的工作流程如图5所示。当TongGu收到用户查询时,如果是知识密集型任务,缺乏足够的相关知识,则生成多级键值对来调用检索模块。然后,将检索到的内容连接到第二种指令格式中,重新进入TongGu,使其能够输出更准确的答案。这个判断过程是由TongGu自己完成的。最终,这些重新格式化的样本被用来替换ACCN-INS中的原始样本,从而形成一个增强的检索增强指令微调数据库。
值得注意的是,为冗长的句子生成完整的键值对可能会耗时一段时间。因此,论文对模型进行了微调,以便只关注于生成键值对的开始片段和结束片段,使用椭圆号来替换过长的中间文本片段。上下文中的完整文本用于基于模型生成的未完成文本段进行检索。这种方法简单而有效,显著减少了从用户输入到模型响应所需的时间。
五、实验
在论文的实验中,论文主要从三个维度来评估TongGu的文言文理解、生成和知识的能力。
5.1 Performance on C3bench
为了评估TongGu在普通文言文任务中的表现,论文使用了C3基准,这是一个为LLM设计的综合性文言文基准,涵盖了10个领域和5个常见的文言文任务。
C3基准的细节见附录C,表10。论文严格遵守C3基准文件中概述的设置,并进行了zero-shot评估。TongGu在C3基准上的性能的定量结果见表3,以及图6中更多的雷达图。结果表明,论文可以观察到TongGu在所有五个任务中都优于现有的LLM,特别是在知识密集型检索任务和数据需求型翻译任务中。
5.2在更广泛的CCU任务上的表现
与现有的基准数据相比,ACCN-INS数据集涵盖了更广泛的任务范围,包括诗歌创作和飞花令(一种中国文学游戏形式,需要包含特定关键字的诗歌)。为了进行综合评估,论文使用与训练集相同的过程生成了1600个样本的测试集,仅在模型评估中使用它。论文的测试数据集的详细信息见附录C,表11。在论文的评估中,论文采用了zero-shot法,分别对知识密集型任务和非知识密集型任务进行了评估,并同时测试了百川2-7BChat作为基线。
对于知识密集型的任务,论文使用准确性作为度量标准。对于非知识密集型任务,论文使用困惑(PPL)作为度量,其中问题和答案被连接并输入到模型中来计算PPL。实验结果为表4。在24个任务中优于百川7b聊天,这证实了论文的增量预训练和两阶段微调方法(RAT)的有效性。更多的结果见附录D。
5.3消融研究
微调方法。论文比较了论文提出的冗余感知调整(RAT)和其他两种微调方法:全参数微调(FT)和低秩自适应(LoRA),使用C3基准。结果汇总见表5。结果表明,传统的FT方法在学习新任务方面表现良好,但存在灾难性遗忘。LoRA方法在一定程度上减轻了灾难性的遗忘,但却难以有效地适应新的任务。相比之下,论文提出的RAT方法在减轻灾难性遗忘和有效学习新任务方面优于FT和LoRA。更广泛任务的消融结果见附录E,表12。
RAT的规格。论文研究了不同的N值对RAT方法中使用的模型性能的影响,如表6所示。将N设置为8可以提供最好的性能,因此论文采用它作为默认策略。
CCU-RAG的有效性。论文通过比较TongGu没有CCU-RAG和有CCU-RAG方法,评估了论文提出的CCU-RAG方法的影响,结果如表7所示。结果表明,CCU-RAG方法显著提高了TongGu在源检索知识密集型任务上的性能,而不降低了标点符号和命名实体识别等非知识密集型任务的性能。关于更广泛的任务的结果见附录E,表13。
六、结论
在本文中,论文介绍了一种新的最先进的LLM(CCU)。论文的贡献包括开发了ACCN-INS数据集,它是第一个公开可访问的CCU指令数据集,以及引入了创新技术,如冗余感知调整(RAT)和CCU-RAG(检索-增强生成)。通过大量的实验和评估,论文证明了TongGu在不同的CCU任务中的优势,在知识密集型和非知识密集型任务中都大大超过了现有的LLM。论文相信,TongGu和AC-INS数据集将为CCU研究界未来的努力提供宝贵的资源。
七、局限
TongGu的性能在很大程度上依赖于指令调优数据集(ACCN-INS)的质量和数量。ACCN-INS数据集,虽然全面,但不能捕捉中国文言文本的所有变化。RAT的微调技术虽然有效,但在减轻灾难性遗忘方面仍可能面临挑战。尽管使用了CCU-RAG,该模型仍然可能产生幻觉。克服这些限制,扩大对CCU的研究,将推动对文言文语言和文化遗产的理解取得进展。
附录见原文
原文链接:https://arxiv.org/abs/2407.03937