微软“JARVIS”,AGI的时代已来!
微软“JARVIS”,AGI的时代已来!
Meta 的 LLM “LLaMA”的意外开源成为振兴开源 AI 社区的火花。
现在,微软似乎希望通过推出“HuggingGPT”(也称为“JARVIS”)来复制他们的成功。这项技术建立在ChatGPT之上,旨在利用开源AI研究的最大支柱之一Hugging Face来创建一种解决复杂AI问题的新方法。
微软的研究人员详细介绍了一种使用LLM作为系统面向用户的部分的方法,利用其自然语言功能与其他模型进行交互。这似乎是“Visual ChatGPT”的精神继承者,后者使用类似的方法将LLM插入文本到图像模型。
微软“JARVIS”是一个协作系统,该系统由LLM作为控制器和众多专家模型作为协作执行者(来自HuggingFace Hub)组成。我们系统的工作流程包括四个阶段:
- 任务规划:使用ChatGPT分析用户的请求以了解他们的意图,并将其分解成可能解决的任务。
- 模型选择:为了解决计划的任务,ChatGPT 根据他们的描述选择托管在拥抱脸上的专家模型。
- 任务执行:调用并执行每个选定的模型,并将结果返回给 ChatGPT。
- 响应生成:最后,使用 ChatGPT 集成所有模型的预测,并生成响应。
“JARVIS”以钢铁侠的私人人工智能助手命名,旨在将开源社区和 ChatGPT 的力量结合在一起。正如 JARVIS 访问 Tony Stark 庞大的服务库并充当各种 AI 管家一样,HuggingGPT 通过用户和模型之间的接口为某些用例调用专门的模型。为 HuggingGPT 创建的体系结构由两个主要组件组成。第一个是LLM,它充当控制器。此模型承担规划任务、选择辅助模型和生成响应的角色。第二个组件是拥抱脸平台,主要进行任务执行。JARVIS的突出特点是它背后的思想,可以浓缩为“语言即界面”的定义。通过使用语言作为通用界面并将LLM置于“大脑”位置,许多不同的,专门的AI模型可以协同工作。
研究人员提供了许多例子来说明JARVIS的潜在用例。通过给出包含多个指令的单个提示,HuggingGPT 能够调用姿势检测模型、图像生成模型、图像分类模型、图像字幕模型和文本到语音转换模型。
虽然 JARVIS 调用的模型并不新颖,并且多年来一直是开源社区的中流砥柱,但将它们组合在一起是解决复杂问题的新方法。尽管给定的提示有多个执行阶段,每个步骤中都有不同的任务,但架构可以完美地处理它。
微软对利用开源研究的新态度不应该让人感到意外,特别是考虑到LLaMA在过去几周里掀起的波澜。开源是人工智能的下一个大乘数,微软似乎也加入了它。
AGI 的开源
虽然微软对Sam Altman和OpenAI的封闭式AI研究政策感到满意,但他们似乎正在追求一条通往AGI的不同道路。虽然研究论文小心翼翼地避免使用这个加载的术语,但论文的摘要将HuggingGPT这样的解决方案描述为迈向“先进人工智能”的“关键一步”。
尽管所有关于创建AGI的讨论以及人类在“通往AGI的道路上”,OpenAI在其研究方面越来越封闭。虽然许多科学家和研究人员批评这种将人工智能视为专有技术的方法,但许多其他人已经在人工智能社区中建立了开源模型的全面声誉。
上个月,LLaMA的发布基本上激发了开源社区的行动,为他们提供了最先进的LLM(带有泄漏的权重)。现在,这导致大量基于LLaMA的项目被发布到世界各地 - 微软似乎渴望回报。事实上,利用开源社区庞大的开源算法库可能只是通往AGI的道路。通过将各种特定领域的AI(也称为“狭义AI”)组合在一起,有可能转向一种称为自组织复杂自适应系统的通用人工智能。
在对AGI的思考中,SingularityNet的首席执行官Ben Goertzel提出了一个狭义AGI的想法,听起来与微软的JARVIS非常相似。他说,
“从今天的窄AI到明天的AGI有一条路径,它通过中间系统,最好被认为是窄AGI。
这些所谓的中间系统是SCADS的前身,SCADS是由较小的AI算法组成的AI系统。SCAD的“智能”部分负责决定哪种算法执行哪种功能,类似于ChatGPT在HuggingGPT中的角色。戈尔策尔阐述道:
“用于生物医学分析的窄AGI可能会利用一小群窄AI工具执行特定的智能功能,但它会弄清楚如何自行组合这些功能。