DeepSeek普照的阳光下,继续RAG还是Distillation?

什么是RAG

RAG概述

RAG,全称为Retrieval-Augmented Generation(检索增强生成),是一种结合了信息检索和文本生成的人工智能技术。简单来说,RAG通过从大量文档或数据库中查找相关信息,并基于这些信息来生成更准确、更有针对性的回答或内容。

为什么需要RAG?

在传统的文本生成模型中,比如一些大型语言模型,它们虽然能够生成流畅的文本,但有时候会因为训练数据有限或者记忆能力不足而产生错误的信息。而RAG通过引入外部知识源(如互联网上的文章、书籍等)作为补充资料,在生成答案之前先进行相关资料的检索,从而提高了输出内容的质量与准确性。就像作为人类的我们,解答一个问题的时候,是仅通过大脑的知识来解答,还是通过翻阅外部资料结合我们大脑储备的知识来解答,往往是后者可以提高我们解答的质量和准确性。

RAG的工作流程

图片

1.输入问题:用户向系统提出一个问题。

2.检索阶段:系统根据问题去搜索其内部或外部的知识库,找到与问题最相关的几个文档片段。

3.融合生成:将检索到的相关文档与原始问题一起送入一个强大的文本生成模型中,该模型利用这些上下文信息来推理生成最终的答案。

4.输出结果:返回给用户一个经过优化处理后的答案。

RAG的优势与局限

核心优势:

  • 动态知识整合:知识库更新后即时生效(如当天新增政策次日可用)。

  • 可解释性增强:答案可标注出处(如显示引用《XX省xx规划》第X条)。

  • 冷启动友好:仅需结构化知识库即可实现80%基础场景覆盖。

关键局限:

  • 检索瓶颈:多跳推理场景(如"某企业是否符合疫情后纾困政策")准确率可能低于60%。

  • 延迟问题:复杂查询时多轮检索可能导致响应超2秒(某些场景可能要求<1.5秒)。

  • 知识孤岛:无统一标准格式的非结构化数据(如长篇的手写会议纪要)处理能力有限。


什么是Distillation


Distillation概述

Distillation(模型蒸馏)是一种模型压缩技术,旨在将复杂大模型(或多个模型的集成)的知识转移到一个更小、更简单的模型中。后者通常被称为学生模型,而前者被称为教师模型。Hinton在2014年的NIPS会议上提出了知识蒸馏的概念,其主要优势在于降低部署成本。

为什么这个过程被称为“蒸馏”而不是“知识转移”呢?因为在使用大模型时,可以调整一个名为Temperature(温度)的参数。该参数越大,模型每次的输出的差异性就越大,更容易产生新颖的结果。在知识蒸馏的训练过程中,通过增加温度参数,使教师模型在各个类别上的输出概率值变得平缓,从而迫使学生模型仔细辨别这些类别间的细微差异,进而更好地学习。因此,可以说这一过程是通过升温来提取精华,传授知识,类似于化学中的蒸馏过程,故得名“蒸馏”。如果感兴趣,可以拜读一下深度学习教父——杰弗里·埃弗里斯特·辛顿(Geoffrey Everest Hinton)在2015年发表的这篇论文《Distilling the Knowledge in a Neural Network》,地址:https://arxiv.org/pdf/1503.02531,下面是论文中关于蒸馏的说明:

图片

翻译过来就是:

我们更通用的解决方案称为“蒸馏”,其方法是提高最终softmax的温度,直到复杂模型产生一组平缓的目标概率分布。随后,在训练小模型时,我们也使用这个较高的温度,以便让小模型能够匹配这些平缓的目标。

Distillation的优势与局限

核心优势:

●效率与成本:

蒸馏后的小模型推理速度提升3-10倍,硬件成本降低80%以上(如从2块 RTX A6000降级为1块RTX 3090部署)。

●领域适配性:通过政府专有数据(如历年政策文件、地方规章)微调,特定任务准确率可提升15-30%。

●隐私可控性:完全本地化部署,避免第三方API数据泄露风险。

关键局限:

●数据依赖:需数万~数十万条高质量标注数据(如标注政策条款关联性)。

●维护成本:法规更新后需重新蒸馏,年均成本可能较高。

●泛化能力:过度适配历史数据可能导致新政策响应滞后。

Distillation模型的刚需场景

以下3条全部满足,则你或许应该考虑Distillation,而不是单纯在RAG上进行投入。

1.(数据敏感性较高 or 与互联网隔离)

2.(不能承受14B及以上开源大模型需要的硬件成本or数据非常特殊,开源大模型本身学习的较少)

3.(对响应有低延迟要求 or 多跳推理场景占比大)

注:所谓多跳推理场景是指需要推理多层,借助跨领域知识才能准确回复的场景。例如,判断一个企业是否符合疫情纾困政策,需要:

1.理解企业的经营状况

2.了解相关政策的具体要求

3.分析企业各项指标与政策条件的匹配度

4.考虑政策实施的时间节点

5.评估其他可能影响资格的因素

在这种场景下,虽然RAG可以提供相关信息支持,但由于需要多层次的推理和判断,单纯依赖检索可能难以给出准确的结论。相比之下,经过专门训练的知识蒸馏模型可能会表现得更好,因为它可以在训练过程中学习到这种复杂的推理模式。

总结一下,RAG大部分场景是需要的,Distillation技术建议了解和实操一下,至于要不要投入更多,则取决你面对的刚需场景。

本篇就这么多内容啦,感谢阅读
你的推荐转发是我持续的创作动力!O(∩_∩)O~

posted @   AI粉嫩特攻队  阅读(165)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· spring官宣接入deepseek,真的太香了~
点击右上角即可分享
微信分享提示