大模型_4：Agent

Posted on 2024-05-04 08:28 天戈朱阅读(868) 评论(0) 编辑收藏举报

目录：

1、全球AI Agent 产品盘点
2、概览：基于LLM的自主智能代理，朝AGI更进一步
3、技术篇：以LLM为基座，拓展感知和行动等功能模块
4、Agent智能体的工作过程
5、市面上Agent主要呈现

1、全球AI Agent 产品盘点：详细点击

开源产品：

Awesome AI Agents：开源ai-agents列表
XAgent：清华-超强大模型智能体应用框架，可自行拆解复杂任务，并高效执行。
ChatDev：清华-多智能体协作开发框架，让多个不同角色的智能体进行协作，自动化开发软件应用。
AgentVerse：提供了一个多功能的框架，简化了为大型语言模型（LLMs）创建自定义多智能体环境的过程。
FastGPT：知识库问答系统，可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景！
AgentGPT：基于浏览器的 AutoGPT 实现，可通过无代码平台访问
Jarvis （HuggingGPT）：Microsoft 开发的协作系统，使用多个AI模型协同工作
MetaGPT：多智能体框架，使用单行输入生成各种内容；为GPT分配不同的角色，形成一个协作实体来完成复杂的任务
MiniGPT-4：视觉语言理解的 AI
Open Interpreter：让大语言模型在您的计算机上运行代码来完成任务
SuperAGI：支持开发和部署自主代理

商业智能

实在Agent智能体：领先的 RPA 全新模式产品，企业员工使用零代码门槛的个人智能助理
澜码Ask XBot：Agent 协助完成数据分析、资料调取等工作
ability.ai：为企业提供安全、以人为本的自主人工智能代理

2、概览：基于LLM的自主智能代理，朝AGI更进一步

1.1、AI Agent全文框架图

1.2 何为AI Agent？

AI Agent 是一种能够感知环境、自主决策并执行动作的智能实体。由于Agent涵盖范围广泛且AI Agent的发展仍处于早期，目前学界对于AI Agent的定义尚未达成共识。

2000年，赵龙文和侯义斌在《Agent的概念模型及其应用技术》中提出，AI Agent是一个运动于动态环境的、具有较高自制能力的实体，该定义后续被国内多篇文献所接受。
2023年，复旦大学NLP团队在《The Rise and Potential of Large Language Model Based Agents: A Survey》中提出，AI Agent能够用传感器感知环境、做决策、用执行器来执行动作。

基于上述定义，我们认为AI Agent应当同时具备环境感知性、决策自主性和动作自为性。

1.3 AI Agent相较ChatGPT有何进步？

AI Agent和ChatGPT均基于LLM大模型，具备理解和推理能力，而AI Agent的进步之处在于：

1）从具体功能维度，具备自主决策和行动能力；
2）从呈现效果维度，能够自主完成大部分工作，人类仅需设立目标并监督；
3）从技术创新维度，是大模型在工程学上的进一步迭代。

1.3.1 从具体功能维度来看，AI Agent具备独立思考和自主决策的能力，输出结果不依赖于prompt的清晰程度

ChatGPT的回答效果取决于用户prompt的清晰准确程度，对于相对复杂的任务，ChatGPT需要用户给出分步任务指令，才能输出令人满意的回复；
而AI Agent具备感知环境、独立思考并做出行动的能力，只要用户设定初始目标，AI Agent即可自行拆解任务、调用工具并输出优质回复，从而提升了易用性和便捷度，降低了用户使用门槛。

以股票研究领域为例，只要用户给出“请帮我生成某公司3Q23业绩点评报告”的初始任务目标：

AI Agent即可自行拆分任务、设计报告框架，调用工具完成从数据搜集到数据分析、再到图表制作等一系列子任务，并最终输出一份令人满意的点评报告。
如下图：ChatGPT与AutoGPT处理任务的流程对比
如下图：AI Agent处理业绩点评报告任务示例

1.3.2 从呈现效果维度来看，AI Agent具备行动能力，能够帮助用户完成具体任务，人类只需进行目标设定和过程监督。

ChatGPT具有较强的文本理解和推理能力，能够对用户提出的问题做出详细解答；
而具备行为能力的AI Agent不仅能够像ChatGPT一样指出“如何做”，还能够代替用户“帮你做”。
真格基金管理合伙人戴雨森将AI和人类协作的程度类比为自动驾驶的不同阶段,如下图：
初代ChatGPT相当于自动驾驶的L2级别，Copilot相当于L3级别，而AI Agent则相当于L4级别，可以在人类的监督辅助下充当“驾驶员”自主完成大部分工作。
腾讯研究院则将人类与AI的合作由初级到高级分为Embedding、Copilot和Agents三种模式。如下图：
与Copilot模式下人类主导工作、AI协助完成部分任务初稿相比，在Agents模式下，AI具备更强的任务拆分、工具选择和进度控制能力，人类只需设立目标、提供资源并监督结果，工作的具体展开可全权交由AI代理。

1.3.3 从技术创新维度来看，AI Agent是大模型在工程学上的进一步迭代。

大模型是基于工程方法的“大力出奇迹”，以数据、算法和算力等要素资源精巧组合的方式，实现了大模型从量变到质变的过程。
而AI Agent在LLM的基础上增加了规划、记忆和执行等功能模块，是工程方法上的延续性创新。
我们认为，AI Agent在工程学上的进步有望进一步推动AI学术研究和应用范式探索。

1.4 发展历程：从符号逻辑到泛化学习，逐渐接近AGI

AI Agent的发展历程如下图：

自1965年首个专家系统DENDRA被提出以来，AI Agent在技术迭代方向上大致经历了从符号型Agent到反应型Agent，再到基于强化学习的Agent、基于迁移学习和元学习的Agent，最终到基于LLM的Agent的五个发展阶段。

我们观察到，AI Agent的发展主要依赖于主流AI算法框架的演进，具有从专用到通用，从基于符号逻辑到强调环境感知、再到重视泛化学习的迭代特征。

目前AI Agent的发展正处于基于LLM的Agent的阶段，各类Agent应用快速涌现。我们认为，基于LLM的Agent具体应用的落地有望迎来新一轮高潮。

就AI Agent的未来发展前景而言：

Yonatan Bisk等在《Experience Grounds Language》中提出，从NLP走向AGI需要经历语料库、互联网、感知、具身及社会属性这五个阶段。
复旦大学NLP进一步指出，目前LLM正处于第二阶段，具有互联网规模的文本输入和输出，而在LLM基础上被赋予感知能力和行动能力的AI Agent则处于第三、第四阶段，
未来AI Agent或将基于LLM继续迭代具备社会属性，并有望组成Agent Society，带来有组织、有成效的合作，从而走向第五阶段，逐步接近AGI。

2、技术篇：以LLM为基座，拓展感知和行动等功能模块

由于学术界对AI Agent的理论研究仍处早期阶段，且过去更多专注于完成特定任务的专有领域Agent，所以现有文献对于Agent的整体技术框架讨论度相对较低。基于目前热度较高的两篇文章：

复旦大学NLP团队的论文《The Rise and Potential of Large Language Model Based Agents: A Survey》
OpenAI安全团队负责人Lilian Weng的博客《LLM Powered Autonomous Agents》

我们对AI Agent当前主流系统框架及观点进行梳理。我们认为，目前AI Agent开发处于相对初级且快速进展的阶段，产品架构主要是在LLM大模型基础上叠加记忆、规划、行动等功能模块或组件，实则高度依赖大模型本身的能力，随着未来大模型和Agent相关研究逐步深入，AI Agent系统框架和组件形态或将发生较大的改变。

2.1 系统框架：AI Agent = LLM大模型 + Planning规划 + Memory记忆 + Tool Use工具使用

LLM Agent 可以理解为一个以 LLM 为大脑的智能体(类比人)，集成了规划、记忆、工具使用等能力。

OpenAI 应用人工智能研究负责人Lilian Weng 在其 Blog：LLM Powered Autonomous Agents 中将LLM Agent定义为 LLM、记忆（Memory）、任务规划（Planning Skills）以及工具使用（Tool Use）的集合

其中 LLM 是核心大脑，Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件。

1.1 规划（Planning）

子目标和分解：LLM Agent 能够将大型任务分解为较小的、可管理的子目标，以便有效的处理复杂任务；
反思和细化：LLM Agent 可以对过去的行为进行自我批评和反省，从错误中吸取经验教训，并为接下来的行动进行分析、总结和提炼，这种反思和细化可以帮助 Agents 提高自身的智能和适应性，从而提高最终结果的质量。

1.2 记忆（Memory）

短期记忆：所有上下文学习都是依赖模型的短期记忆能力进行的；
长期记忆：这种设计使得 AI Agents 能够长期保存和调用无限信息的能力，一般通过外部载体存储和快速检索来实现。

1.3 工具使用（Tool use）

LLM Agent 可以学习如何调用外部 API，以获取模型权重中缺少的额外信息，这些信息通常在预训练后很难更改，包括当前信息、代码执行能力、对专有信息源的访问等。

总结如下：

LLM Agent 常见功能

LLM Agent能够基于大语言模型进行对话、完成任务、推理，并可以展示一定程度的自主行为。下面是LLM Agent 常见的功能：

利用LLM本身的语言能力理解指令、上下文和目标
利用Tools（工具套件，如计算器、API、搜索引擎等）来收集信息并采取行动完成分配的任务。
展示思维链推理、思维树和其他Prompt Engineering概念，建立逻辑关系以得出结论和解决问题。
通过将上下文和目标纳入他们的语言生产技能来为特定目的（电子邮件、报告、营销材料）生成量身定制的文本。
根据需要，与用户进行不同级别的交互。
将不同的 AI 系统（例如带有图像生成器的大型语言模型）耦合在一起，以实现多方面的功能。

3、Agent智能体的工作过程

Agent智能体的工作过程示例

2.1 Prompt提示词【圈定角色范围、阐述任务背景、习惯特色】

提示词是Agent接收到的初始输入，它描述了Agent需要完成的任务或解决的问题。
提示词可以是文本、图像、语音等多种形式。
Agent需要对提示词进行解析和理解，以便为后续的任务规划和行动执行提供指导。
总结：提示词写得好不好直接影响处理结果

2.2 LLM大模型【理解、提取、识别、选择】

LLM大模型（Large Language Model）是Agent进行任务规划和知识推理的重要工具。它通过对大量文本数据的学习，具备了强大的语言处理能力和知识推理能力。
Agent可以利用LLM大模型对提示词进行深入分析，生成可能的解决方案，并进行选择和优化。

2.3 Memory知识库【调用、匹配、当前输入内容、上下文内容、向量数据库】

2.4 Planning任务规划【分析方式、分析思考、推理痕迹】

任务规划是Agent根据提示词、LLM大模型以及知识库进行决策和规划的过程。
它涉及对任务的分解、目标的设定、路径的规划等多个方面。
Agent需要综合考虑各种因素，制定出最合适的任务执行方案。
React：将任务中单独的行为和语言空间组合在一起，从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动（例如使用维基百科搜索API），并以自然语言留下推理的痕迹。