面向法律领域的大模型微调与应用
来源:论文
摘要
这篇论文探讨了如何通过微调大型语言模型来实现法律领域的智能化服务。作者指出,以往的智慧法律系统需要为每个特定的任务设计专门的算法或模型,面临着研发成本高、集成难度大的困难。而现在,通过微调大型语言模型,可以同时处理多种法律任务,从而提高法律从业者的效率和准确性。此外,作者还介绍了一种中文智慧法律大模型LawLLM,该模型可以面向不同用户群体,提供多样的法律服务,并且在法律信息抽取等任务上取得了良好的表现。
创新点
方法描述
该论文提出了一个名为LawBench的开源大语言模型综合评估基准,旨在评估基于中国法律体系的大语言模型在记忆、理解和应用三个认知水平上的表现。LawBench数据集包含了20个不同的任务,每个任务有500个示例,并且评价指标有所差异。
方法改进
该论文并没有提到具体的改进方法,但可以推测出可能是在设计LawBench数据集时考虑到了不同任务的特点,并针对这些特点制定了相应的评价指标。
解决的问题
该论文主要解决了如何评估基于中国法律体系的大语言模型在记忆、理解和应用三个认知水平上的表现的问题。通过建立LawBench数据集和相关的评价指标,可以帮助研究人员更好地了解大语言模型在中国法律领域的表现,并为后续的研究提供参考。
LawLLM模型
模型整体框架:
模型训练
模型训练分为 监督微调 和 检索增强 两个阶段。
-
基座模型为:Baichuan-13B-base
-
做全参数微调:批大小(batch size)为64、学习率为5×10-5、2个epoch训练阶段、上下文长度为4 096个Token
-
环境:8*A800GPU
- 监督微调(指令微调)
监督微调阶段的训练目标和自回归模型一样,即根据已知文本预测下一个Token。
- 优点:经过监督微调,模 型能够具备基础的法律文本处理能力,包括法律语言的理解和生成能力,并具备法律推理思维。
- 不足:但在很多法律场景下,例如法律咨询和判决预测场景,模型的输出如果能有法律法规作为支持依据则更有说服力。同时在监督微调之后,模型可能会因为幻觉或过时的知识而产生不准确的输出。
- 检索增强
为了解决这个问题,检索增强阶段利用开源的检索框架Langchain来增强模型的能力。
首先建立包括中国宪法、刑法、行政诉讼法、著作权法、专利法等50多类法律的知识库,将这些文档编码为向量并保存在本地知识库。
检索过程中,对于每一个用户输入,检索器计算输入与知识库中文本块(chunk)的相似性,从知识库中召回最相关的Top-K个文本块,候选文档和原始用户输入经过设计的提示(prompt)组合后,再输入模型中得到输出。
论文实验
本文进行了多个对比实验,包括:
- 智慧法律大模型的零样本和少样本学习能力比较。实验结果表明,本文提出的中文智慧法律大模型LawLLM在零样本和少样本学习能力方面表现优异,超越了其他通用大模型和法律领域大模型。
- 长文本信息抽取任务的比较。实验结果表明,LawLLM在裁判文书信息抽取任务上表现出色,仅次于175×109个参数、16 000字上下文长度的GPT-3.5-Turbo-0125模型。同时,本文也指出了其他法律类任务的微调可以使模型具备完成新的法律任务的能力。
- 不同长度文本和不同抽取问题上的实验结果比较。实验结果表明,LawLLM在不同长度文本和不同抽取问题上的表现都有所差异,但在整体上仍然表现出色。
综上所述,本文的实验结果表明,中文智慧法律大模型LawLLM在各种场景下都能表现出色,具有广泛的应用前景。