Fork me on GitHub

从 LLM 到 LAM :Large Action Models

与主要专注于文本生成和回复的传统 LLMs 不同,LAMs 旨在在物理和数字环境中执行动作。

  1. 核心观点
    • LAMs 是 AI 发展的重要方向,能够将 AI 从被动语言理解转变为主动任务完成,在人工智能发展进程中具有重要意义。
    • LAMs 通过在物理和数字环境中执行动作,实现了从语言交互到实际行动的跨越,是对 LLMs 的重大拓展。
    • 开发 LAMs 需要系统的方法,包括数据收集、模型训练、环境集成、评估等多个关键步骤,以确保其在实际应用中的有效性和可靠性。
    •  

  2. LAMs 的特性
    • 多模态输入理解:能解读自然语言请求、语音命令、图像或视频等多样化输入,理解用户意图1。
    • 动作生成:可将用户意图转化为在特定环境中可执行的动作,如操作 GUI 元素、调用 API、物理操作或生成代码等2。
    • 动态规划与适应:能分解复杂任务,根据环境变化调整计划和动作,确保任务执行的灵活性和有效性3。
    • 专业化与高效性:专注于特定领域或任务,编码环境知识,提高准确性和适应性,降低计算开销,适用于资源受限环境4。
  3. LAMs 的开发步骤
    • 数据收集与准备:采用任务 - 计划收集和任务 - 动作收集两阶段方法,获取高质量训练数据,确保模型能理解任务并执行动作。
    • 模型训练:分四个阶段,从学习结构化任务计划到模仿专家演示,再到自我探索和奖励优化,逐步提升模型能力。
    • 离线评估:使用离线数据集评估模型在规划和决策能力方面的表现,包括任务成功率、精度、召回率等指标。
    • 集成与落地:将训练好的 LAM 集成到代理系统(如 UFO)中,使其能与环境交互,执行任务并根据反馈调整。
    • 在线评估:在真实环境中评估 LAM 性能,确保其在准确性、效率和完成任务能力等方面符合预期。
  4. 面临的挑战与未来方向
    • 安全风险:LAMs 执行现实世界动作可能带来安全隐患,需开发安全机制,如错误检测、回滚和故障安全系统。
    • 伦理与监管:部署 LAMs 引发伦理和监管问题,需建立透明模型架构、明确监管框架和伦理准则,确保公平、负责。
    • 可扩展性、通用性和适应性:当前 LAMs 针对特定环境,扩展性、通用性和适应性受限,需采用新技术提高其在不同环境中的性能。
  5. 研究贡献与意义
    • 提供 LAMs 的全面框架,包括概念、开发步骤和评估方法,为从业者提供实践指导。
    • 强调 LAMs 在实现人工智能从语言理解到实际行动转变中的关键作用,推动 AI 技术向更智能、实用方向发展。
    • 通过案例研究和实验分析,展示 LAMs 的潜力和优势,为未来研究和应用提供基础。

数据样例:

  • 数据构建:使用 GPT - 4o 提取和格式化任务及计划,将历史搜索查询合成完整用户请求,生成包含任务描述和计划的结构化 JSON 样本,如 {"task_id": "word_032","task": "Add a border to a page in Word","plan": ["Go to Design> Page Borders.","Make selections for how you want the border to look.","To adjust the distance between the border and the edge of the page, select Options. Make your changes and select OK.","Select OK."]}。

工程化框架:

https://microsoft.github.io/UFO/

https://github.com/microsoft/UFO

UFO is a UI-Focused multi-agent framework to fulfill user requests on Windows OS by seamlessly navigating and operating within individual or spanning multiple applications.

论文链接:https://arxiv.org/abs/2412.10047

 

 
posted @ 2024-12-24 15:46  stardsd  阅读(64)  评论(0编辑  收藏  举报