大模型开发之 Agent原理

Agent的定义

智能体工作原理

大模型如DeepSeek 私有化部署后,还不能直接当做智能体用,原因DS没有企业内的业务知识

  1. 什么情况下需要重新训练DS?
    如是业务领域与DS预训练的语料差异极大,如
    完全改变模型架构(如从GPT转成BERT);
    业务领域与预训练语料差异极大(如医疗、法律等专业领域);
    需彻底清除原始训练数据中的敏感信息(合规要求极高时)。
  2. 一般做根据业务需求进行领域微调和知识增强即可。
    (比如我是销售系统的产品经理,客户问某个产品功能怎么操作)

1. 必须做的核心工作:领域微调(Fine Turing),目的是为了做领域适配

输入数据:公司产品文档、历史客服对话记录、用户高频问题库、商品知识图谱。
微调目标:
让模型熟悉产品术语(如“SKU”“满减规则”“退换货流程”);
适配业务话术风格(如正式/亲切语气、禁用词汇过滤);
提升对长尾问题的回答准确率(如“A产品的防水等级是多少?”)。

2. 知识增强,使用 RAG(检索增强生成)Retrieval - Augmented Generation 英 /ɔːɡˈmentɪd/

参考 https://www.cnblogs.com/aibi1/p/18742014

大模型可能缺少实时、细粒度的产品知识(如价格变动、库存状态)。
构建产品知识库(Elasticsearch/Milvus向量数据库);

RAG VS 微调


RAG:依靠准备好的知识结合大模型最终给用户答案
微调:微调的结果是修改模型的参数,让大模型学会知识

  • 模型能力的定制-> 微调。 希望大模型以特殊的口吻回答问题

  • 智能设备-> 微调。智能设备空间小,只能用小模型

  • 响应有要求-> 微调。因为RAG流程要复杂些,需要访问向量数据库。而微调直接借助LLM就可以搞定。

  • 动态数据-> RAG
    微调相对的成本和风险比RAG高
    成本:数据工程,需要准备数据,需要大量的人力和时间成本准备数据
    硬件成本:GPU成本

  • 幻觉 -> RAG

  • 可解释性 -> RAG 。 需要可以把生成的结果做检验,微调是个黑盒,不知道里面干了什么

  • 成本-> RAG
    微调相对的成本和风险比RAG高
    成本:数据工程,需要准备数据,需要大量的人力和时间成本准备数据
    硬件成本:GPU成本

  • 依赖生成能力 -> RAG

大模型Agent主流开发模式 ReAct模式。

开发流程
1 规划。 由DeepSeek实现,大任务拆小任务(API)
2 Action
调用API。理论上没关系。假设执行通过DS的function calling调用,把API注册给大模型,DS通过function call机制来调用
3 观测
把前面执行的结果+前面的prompt组成新的prompt给到DS,让DS告诉我下一步的Action是什么,要么规划,继续走1. 要么完成退出

例子
规划:
第一步:查标价
第二步:拿到优惠价格
第三步:做减法

但是我走到第二步的时候,发现不是拿到优惠价格,而是优化规则。第三步需要做调整,根据优化规则,做后续动作的调整

React 架构原理,交错分解的工作方式

意义:能够感知环境变化并做出相应的调整(推理)机制

在规划的前提下,行动后思考,再行动。

Thought (规划)

理解任务,给出完成任务的步骤
反思和优化,下一步行动的推理。

涉及技术

提示词工程:和模型沟通的工具。

意义:通过Prompt激发大语言模型的潜能,引导LLM做出更好的规划
Observation

Action - F unction-Calling

语言模型没有行动能力。语言模型通过推理触发,执行器调用工具执行。

在大模型的AI智能体ReAct机制

流程

LLM+规划+行动+记忆+Tools

规划

收到目标任务,模型拆解子步骤
让语言模型做高质量的规划:思维链(类比思路),提示词工程(COT)
补充记忆

记忆

语言模型没有产生新的记忆能力。

短期记忆(short-term memory)

当前会话有效。 把之前聊天记录加上当前问题一起发给模型,模型快速学习聊天记录,回答我的问题。

长期记忆(long-term memory):除了思路 ,还需要必要的知识。补充知识库有2种技术手段:1 RAG检索增强生成(检索 增强生成),2 微调Fine - Tuning

RAG

去向量数据库,(R)检索语义相似度高的信息,把问题和资料发给模型

微调

大模型海量数据:主要用于模型的训练,让模型通过对大量数据的学习,自动提取特征、发现规律,从而获得语言理解、图像识别等各种能力。模型在训练过程中会对这些数据进行统计分析和模式挖掘,以构建其内部的知识表示和推理机制
知识库数据:主要用于为模型提供准确、可靠的知识支持,在模型推理、回答问题等过程中,作为外部的知识源被查询和引用。知识库数据可以帮助模型弥补自身在某些知识细节或特定领域知识上的不足,提高模型输出的准确性和可靠性。

例子:比如你问豆包英伟达的股票跌到多少钱可以买。 那么大模型会理解你问的是股票,然后会取知识库找估值模型,历史的股价,做预测。 那么当前的股价是存储在知识库中。
当前股票数据是通过爬虫实时去网上爬取的,

模型预训练原理

DeepSeek 发布的版本是经过预训练的,大部分公司不需要重新预训练,做微调就可以。
权重参数 W: 用激活函数做计算
模拟人类大脑的运作机制,类似人类大脑的神经元的连接。 W权重参数,神经元之间连接的权重参数,用来激活函数做计算。
取大批量的数据,预定好的INPUT 提出的问题,OUTPUT 答案。 把模型的输出和预期的结果差距做量化(损失函数,损失计算),反向传递调整W参数(调大,调小)。当模型稳定后,完成后,W参数就变了,他的知识就静态了,不能掌握新的知识了。

问题和解决
1 聊着聊着,token溢出。
使用滑动窗口,取最近的几次聊天记录给模型
把历史聊天记录做摘要

工具调用 Fine Tuning

参考资料

https://e.naixuejiaoyu.com/p/t_pc/course_pc_detail/column/p_67b2e45ee4b0694c5a93c5a4?product_id=p_67b2e45ee4b0694c5a93c5a4

posted @   向着朝阳  阅读(2)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
点击右上角即可分享
微信分享提示