博客园  :: 首页  :: 联系 :: 管理

大模型_4:Agent

Posted on 2024-05-04 08:28  天戈朱  阅读(868)  评论(0编辑  收藏  举报

目录:

  •  1、全球AI Agent 产品盘点
  •  2、概览:基于LLM的自主智能代理,朝AGI更进一步
  •  3、技术篇:以LLM为基座,拓展感知和行动等功能模块
  •  4、Agent智能体的工作过程
  •  5、市面上Agent主要呈现

1、 全球AI Agent 产品盘点:详细点击


 开源产品: 

  1. Awesome AI Agents:开源ai-agents列表 
  2. XAgent:清华-超强大模型智能体应用框架,可自行拆解复杂任务,并高效执行。
  3. ChatDev:清华-多智能体协作开发框架,让多个不同角色的智能体进行协作,自动化开发软件应用。
  4. AgentVerse:提供了一个多功能的框架,简化了为大型语言模型(LLMs)创建自定义多智能体环境的过程。
  5. FastGPT:知识库问答系统,可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!
  6. AgentGPT:基于浏览器的 AutoGPT 实现,可通过无代码平台访问
  7. Jarvis (HuggingGPT):Microsoft 开发的协作系统,使用多个AI模型协同工作
  8. MetaGPT:多智能体框架,使用单行输入生成各种内容;为GPT分配不同的角色,形成一个协作实体来完成复杂的任务
  9. MiniGPT-4:视觉语言理解的 AI
  10. Open Interpreter:让大语言模型在您的计算机上运行代码来完成任务
  11. SuperAGI:支持开发和部署自主代理

商业智能

  1. 实在Agent智能体:领先的 RPA 全新模式产品,企业员工使用零代码门槛的个人智能助理
  2. 澜码Ask XBot:Agent 协助完成数据分析、资料调取等工作
  3. ability.ai:为企业提供安全、以人为本的自主人工智能代理

 

2、 概览:基于LLM的自主智能代理,朝AGI更进一步


  1.1、AI Agent全文框架图

  •  

1.2 何为AI Agent?

   AI Agent 是一种能够感知环境、自主决策并执行动作的智能实体。由于Agent涵盖范围广泛且AI Agent的发展仍处于早期,目前学界对于AI Agent的定义尚未达成共识。

  • 2000年,赵龙文和侯义斌在《Agent的概念模型及其应用技术》中提出,AI Agent是一个运动于动态环境的、具有较高自制能力的实体,该定义后续被国内多篇文献所接受。
  • 2023年,复旦大学NLP团队在《The Rise and Potential of Large Language Model Based Agents: A Survey》中提出,AI Agent能够用传感器感知环境、做决策、用执行器来执行动作。

  基于上述定义,我们认为AI Agent应当同时具备环境感知性、决策自主性和动作自为性

1.3  AI Agent相较ChatGPT有何进步? 

   AI Agent和ChatGPT均基于LLM大模型,具备理解和推理能力,而AI Agent的进步之处在于:

  • 1)从具体功能维度,具备自主决策和行动能力
  • 2)从呈现效果维度,能够自主完成大部分工作,人类仅需设立目标并监督;
  • 3)从技术创新维度,是大模型在工程学上的进一步迭代。

1.3.1  从具体功能维度来看,AI Agent具备独立思考和自主决策的能力,输出结果不依赖于prompt的清晰程度

  • ChatGPT的回答效果取决于用户prompt的清晰准确程度,对于相对复杂的任务,ChatGPT需要用户给出分步任务指令,才能输出令人满意的回复;
  • 而AI Agent具备感知环境、独立思考并做出行动的能力,只要用户设定初始目标,AI Agent即可自行拆解任务、调用工具并输出优质回复,从而提升了易用性和便捷度,降低了用户使用门槛。

     以股票研究领域为例,只要用户给出“请帮我生成某公司3Q23业绩点评报告”的初始任务目标:

  • AI Agent即可自行拆分任务、设计报告框架,调用工具完成从数据搜集到数据分析、再到图表制作等一系列子任务,并最终输出一份令人满意的点评报告。
  • 如下图:ChatGPT与AutoGPT处理任务的流程对比
  • 如下图:AI Agent处理业绩点评报告任务示例 

1.3.2  从呈现效果维度来看,AI Agent具备行动能力,能够帮助用户完成具体任务,人类只需进行目标设定和过程监督。

  • ChatGPT具有较强的文本理解和推理能力,能够对用户提出的问题做出详细解答;
  • 而具备行为能力的AI Agent不仅能够像ChatGPT一样指出“如何做”,还能够代替用户“帮你做”。
  • 真格基金管理合伙人戴雨森将AI和人类协作的程度类比为自动驾驶的不同阶段,如下图:
  • 初代ChatGPT相当于自动驾驶的L2级别,Copilot相当于L3级别,而AI Agent则相当于L4级别,可以在人类的监督辅助下充当“驾驶员”自主完成大部分工作。
  •  腾讯研究院则将人类与AI的合作由初级到高级分为Embedding、Copilot和Agents三种模式。如下图:

  • 与Copilot模式下人类主导工作、AI协助完成部分任务初稿相比,在Agents模式下,AI具备更强的任务拆分、工具选择和进度控制能力,人类只需设立目标、提供资源并监督结果,工作的具体展开可全权交由AI代理。

 1.3.3 从技术创新维度来看,AI Agent是大模型在工程学上的进一步迭代。

  • 大模型是基于工程方法的“大力出奇迹”,以数据、算法和算力等要素资源精巧组合的方式,实现了大模型从量变到质变的过程。
  • 而AI Agent在LLM的基础上增加了规划、记忆和执行等功能模块,是工程方法上的延续性创新。
  • 我们认为,AI Agent在工程学上的进步有望进一步推动AI学术研究和应用范式探索。

1.4 发展历程:从符号逻辑到泛化学习,逐渐接近AGI

  AI Agent的发展历程如下图:

  •  

  自1965年首个专家系统DENDRA被提出以来,AI Agent在技术迭代方向上大致经历了从符号型Agent到反应型Agent,再到基于强化学习的Agent、基于迁移学习和元学习的Agent,最终到基于LLM的Agent的五个发展阶段。

  我们观察到,AI Agent的发展主要依赖于主流AI算法框架的演进,具有从专用到通用,从基于符号逻辑到强调环境感知、再到重视泛化学习的迭代特征。

  目前AI Agent的发展正处于基于LLM的Agent的阶段,各类Agent应用快速涌现。我们认为,基于LLM的Agent具体应用的落地有望迎来新一轮高潮。 

  就AI Agent的未来发展前景而言:

  • Yonatan Bisk等在《Experience Grounds Language》中提出,从NLP走向AGI需要经历语料库、互联网、感知、具身及社会属性这五个阶段。
  • 复旦大学NLP进一步指出,目前LLM正处于第二阶段,具有互联网规模的文本输入和输出,而在LLM基础上被赋予感知能力和行动能力的AI Agent则处于第三、第四阶段,
  • 未来AI Agent或将基于LLM继续迭代具备社会属性,并有望组成Agent Society,带来有组织、有成效的合作,从而走向第五阶段,逐步接近AGI。

 

2、技术篇:以LLM为基座,拓展感知和行动等功能模块


由于学术界对AI Agent的理论研究仍处早期阶段,且过去更多专注于完成特定任务的专有领域Agent,所以现有文献对于Agent的整体技术框架讨论度相对较低。基于目前热度较高的两篇文章:

我们对AI Agent当前主流系统框架及观点进行梳理。我们认为,目前AI Agent开发处于相对初级且快速进展的阶段,产品架构主要是在LLM大模型基础上叠加记忆、规划、行动等功能模块或组件,实则高度依赖大模型本身的能力,随着未来大模型和Agent相关研究逐步深入,AI Agent系统框架和组件形态或将发生较大的改变。

2.1 系统框架:AI Agent = LLM大模型 + Planning规划 + Memory记忆 + Tool Use工具使用

 LLM Agent 可以理解为一个以 LLM 为大脑的智能体(类比人),集成了规划、记忆、工具使用等能力。

 OpenAI 应用人工智能研究负责人Lilian Weng 在其 Blog:LLM Powered Autonomous Agents  中将LLM Agent定义为 LLM、记忆(Memory)、任务规划(Planning Skills)以及工具使用(Tool Use) 的集合

其中 LLM 是核心大脑,Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件。

  •  

 1.1 规划(Planning)

  • 子目标和分解:LLM Agent 能够将大型任务分解为较小的、可管理的子目标,以便有效的处理复杂任务;
  • 反思和细化:LLM Agent 可以对过去的行为进行自我批评和反省,从错误中吸取经验教训,并为接下来的行动进行分析、总结和提炼,这种反思和细化可以帮助 Agents 提高自身的智能和适应性,从而提高最终结果的质量。

 1.2 记忆 (Memory)

  • 短期记忆:所有上下文学习都是依赖模型的短期记忆能力进行的;
  • 长期记忆:这种设计使得 AI Agents 能够长期保存和调用无限信息的能力,一般通过外部载体存储和快速检索来实现。

1.3 工具使用(Tool use)

  • LLM Agent 可以学习如何调用外部 API,以获取模型权重中缺少的额外信息,这些信息通常在预训练后很难更改,包括当前信息、代码执行能力、对专有信息源的访问等。

总结如下:

  •  

LLM Agent 常见功能

   LLM Agent能够基于大语言模型进行对话、完成任务、推理,并可以展示一定程度的自主行为。下面是LLM Agent 常见的功能: 

  • 利用LLM本身的语言能力理解指令、上下文和目标
  • 利用Tools(工具套件,如计算器、API、搜索引擎等)来收集信息并采取行动完成分配的任务。
  • 展示思维链推理、思维树和其他Prompt Engineering概念,建立逻辑关系以得出结论和解决问题。
  • 通过将上下文和目标纳入他们的语言生产技能来为特定目的(电子邮件、报告、营销材料)生成量身定制的文本。
  • 根据需要,与用户进行不同级别的交互。
  • 将不同的 AI 系统(例如带有图像生成器的大型语言模型)耦合在一起,以实现多方面的功能。

 

3、Agent智能体的工作过程


 Agent智能体的工作过程示例

  •  

2.1 Prompt提示词【圈定角色范围、阐述任务背景、习惯特色】 

  • 提示词是Agent接收到的初始输入,它描述了Agent需要完成的任务或解决的问题。
  • 提示词可以是文本、图像、语音等多种形式。
  • Agent需要对提示词进行解析和理解,以便为后续的任务规划和行动执行提供指导。
  • 总结:提示词写得好不好直接影响处理结果

2.2 LLM大模型【理解、提取、识别、选择】

  • LLM大模型(Large Language Model)是Agent进行任务规划和知识推理的重要工具。它通过对大量文本数据的学习,具备了强大的语言处理能力和知识推理能力。
  • Agent可以利用LLM大模型对提示词进行深入分析,生成可能的解决方案,并进行选择和优化。 

2.3 Memory知识库【调用、匹配、当前输入内容、上下文内容、向量数据库】

2.4 Planning任务规划【分析方式、分析思考、推理痕迹】

  • 任务规划是Agent根据提示词、LLM大模型以及知识库进行决策和规划的过程。
  • 它涉及对任务的分解、目标的设定、路径的规划等多个方面。
  • Agent需要综合考虑各种因素,制定出最合适的任务执行方案。 
  • React:将任务中单独的行为和语言空间组合在一起,从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动(例如使用维基百科搜索API),并以自然语言留下推理的痕迹。

 2.5  Action工具使用【执行、返回、执行】

  • 行动执行是Agent根据任务规划结果执行具体操作的过程。
  • 它可能涉及与环境的交互、数据的收集和处理、决策的调整等多个环节。
  • Agent需要准确地执行每一步操作,以确保任务能够顺利完成。

 

4、市面上Agent主要呈现 


 目前智能体的呈现主要有以下几个形式:

  • Copilot场景助理→ChatGPTs对话式→Flow工作流→Agent自主智能体→Agents多智能体协同
  •  

 更多应用场景详细参见:100个AI Agent应用场景合集

 

5、全球AI Agent 产品盘点


 以下是 100 个 AI Agent 的创新应用场景,详细参见:100个AI Agent应用场景合集

 

参考