OpenAI 的变化对行业意味着什么?
哎呀,中国AI的发展可是搅动了一番风云。害怕自己正在失去对 AI 话语权的掌控,OpenAI 决定是时候全力出击了。
除了最近意外发布的 o3-mini 模型之外,Sam Altman 昨天还宣布了接下来几周/几个月的路线图,而这些变化相当显著;他们真的在改变 ChatGPT 的运作方式,并最终明确了 OpenAI 从一开始对 ChatGPT 的终极目标。
如果你对接下来几周和几个月 AI 领域会如何变化,以及这将如何影响软件的未来感兴趣,那就继续往下读吧
从模型到系统
讽刺的是,这家以“OpenAI”命名的神秘 AI 公司,已经被认为是“行业的门面”超过两年了。
但还能持续多久?
最近,由于大众的无知多于其实际可信度,DeepSeek 对这一王座发起了挑战。
OpenAI 非常清楚自己的业务正在迅速商品化,也比任何人都更明白保持话语权的重要性,尤其考虑到他们今年计划融资高达 400 亿美元(如果 Elon Musk 允许的话)。
因此,在过去几周里,它大幅加快了“交付”速度——在初创企业领域,这个词指的是推出新产品或新功能。
但昨天,OpenAI 更进一步,并且看起来像是有史以来第一次,比以往任何时候都提供了更多关于他们计划的细节。
理解模型本质的不同
要真正理解 OpenAI 的公告意味着什么,首先有必要澄清一些事情。
首先,我们必须明白当前 AI 系统的前沿基于两种模型类型(它们在底层几乎相同,但在实践中的行为显著不同,因此需要区分):
- 预训练模型,也被称为“非推理模型”
这些就是所谓的“大型语言模型”(LLMs),是经过训练、掌握尽可能多数据的庞大 AI 模型,训练数据达到数十万亿字(作为参考,Llama 3.1 405B 训练了 15 万亿 tokens,约 11–12.5 万亿字,而 DeepSeek v3 训练了 14.8 万亿 tokens,处于相同范围)。
代表性例子包括 GPT-4(OpenAI)、Opus(Anthropic)、Gemini 2.0(Google)或 Grok-2 和 Grok-3(xAI,后者尚未发布)。
这些模型最大的特点是它们如何生成回复:它们是快速思考者。在收到用户请求后,它们会立刻确定回答,而不会犹豫。可以把它们想象成“直觉机器”,就像你在回答问题时总是依赖你的第一直觉一样。
如果你喜欢类比的话,它们的思维方式类似于《辛普森一家》的荷马·辛普森或《恶搞之家》的彼得·格里芬——几乎没有什么思考过滤,脑子里想到什么就直接说出来。
- 推理模型,也称为“大型推理模型”(LRMs)
目前业界热议的话题,它们的行为略有不同。它们不会仅仅依赖第一反应,而是采取多步推理的方法来回答问题——更慢、更深思熟虑的思考方式,就像你在解决一个复杂任务时所做的那样。
它们是慢速思考者。
但为什么我们需要这个?
正如 OpenAI 推理团队负责人 Noam Brown 所说:“有些问题,经过更长时间的思考会更有益。” 这意味着推理模型不会立刻给出答案,而是会进行反思、反复推敲、回溯并寻找替代方案,直到找到一个符合用户需求的答案。可以把这个过程想象成你在解决一道复杂数学题时的思考方式。
当然,这些模型主要是为解决复杂问题而设计的,但对于不需要深度思考的问题,比如“波兰的首都是哪里”这类知识性问题,它们并不比 LLMs 更有优势。
在 OpenAI 的产品层面上,这种区别非常明确:
• 非推理模型 包括 GPT-4o 和 GPT-4。
• 推理模型 包括“o 家族”,比如 o1、o3 及其各自的 mini 版本。
然而,必须明确的是,在推理模型的核心,依然是一个非推理模型。就像人类在解决难题时,既会运用直觉,也会利用知识。换句话说,一个推理模型本质上就是一个 LLM(也就是一个拥有良好问题解决直觉并且对世界有大量认知的模型),但它被训练成以多步方式进行问题求解。
例如,GPT-4o 是 o1 的核心,而 GPT-4.5 很可能是 o3 的核心。
不过,目前 ChatGPT 的界面强制用户在每种情况下选择要使用的模型,这基本上是基于我们刚刚讨论的任务区分,但却要求用户自己做出选择——这远称不上理想。
那么,接下来会发生什么?
先是 Orion,然后是系统
首先推出 Orion,也就是 GPT-4.5
一个非推理的新一代 SOTA(最先进)模型
换句话说,OpenAI 的下一个发布版本将是类似于我们前面讨论的第一种类型的模型——一种“直觉机器”。不,这个模型并不适用于推理任务,尽管它比 o1 或 o3 更新,但它应该在更广泛的任务上表现更好,特别是那些不涉及多步问题求解的任务。
此外,我们预计这个模型将是多模态的,也就是说,它的训练数据不仅限于文本,还包括图像、音频,甚至可能是视频。
那么,我们是否可以期待 GPT-4.5 具备生成视频、图像、音频和文本的能力?不一定。OpenAI 早已为每种数据类型开发了专门的工具。
我的意思是,这个模型应该能够处理所有这些数据类型,至少作为一个“任意输入到文本”的模型。简单来说,你可以向它输入任何数据类型,它都能理解并与你交流。
至于视频、图像和音频的生成,我预计 OpenAI 会继续使用专门的应用模型,比如 Sora 负责视频生成,这些模型将成为 GPT-5 生态系统的一部分。毕竟,创建一个完全端到端的多模态编码-解码系统成本极高,而 OpenAI 更可能采用下文所述的路由方法来节省成本。
总而言之,我们应该期待 OpenAI 的下一个版本成为一个在知识性和创造性任务上表现出色的模型,它能够理解各种数据格式,并至少能基于这些数据生成文本。
这将引领我们走向下一个重大发布——GPT-5,GPT 正式成为一个系统。
最先进的 AI 系统
正如 Sam Altman 所描述的,GPT-5 将不再是单一模型,而是由多个模型、路由器和工具组成的“星座”系统。
换句话说,用户将只有一个入口,而在后台,ChatGPT 将动态地将你的请求路由到最适合该任务的模型,从此彻底消除繁琐的模型下拉菜单。
一个路由器将决定使用哪个 LLM、工具或记忆来源。 来源
反过来,这将使 OpenAI 在决定哪个模型来回答你的问题时拥有更大的控制权,同时也能更好地管理推理成本。
例如,许多人在有更大的模型可用时,可能会直接忽略 mini 版本,即使 mini 模型在某些任务上能够更快、更低成本地完成工作。
这种选择导致 OpenAI 产生更多的额外开销,纯粹是“因为用户的偏好”,因此,如果 OpenAI 直接为你做出决策,毫无疑问将大幅提升成本效率。
最大的问题在于,他们是否会允许某种程度的自定义或用户偏好设置?
无论是模型选择、微调自己的模型、向量存储(数据库),还是工具(尤其是对 AI 代理来说至关重要),是否会给予用户自由度?
但 OpenAI 为什么要这样做?
计算机的未来
撇开 AGI(通用人工智能)的愿景,ChatGPT 目前的最终目标似乎是成为软件的“语言可编程后端”。
将 ChatGPT 仅仅称为“聊天机器人”已经是极端简化的说法。如果说它们在向某种方向演变,那就是 AI 驱动的构建平台。而这种转变——从简单的聊天界面,到一个连接工具执行的对话式数据库——将会让这个产品变得极具吸引力。无论是 ChatGPT、Gemini(谷歌也明确表示这是他们的目标),还是 Llama,未来的软件开发如果不基于 GPT-5 这类系统,都会显得不可思议。
通过一个 API 连接,这些平台将能够提供:
• 数据存储,支持非结构化数据(图像、音频)和结构化数据(参考 Uber 的语言到 SQL 模型)。
• 语言可编程的工具调用与执行(也就是说,模型可以代表你采取行动)。
• 在后端与代理式前端之间提供语言可编程的聊天接口(未来的软件开发将是代理与代理之间的对话)。
• 自动工具和模型路由,后端会根据请求动态适配,而无需你手动编写基于规则的逻辑,后端将变得高度自适应,几乎不需要编程。
语言编程:未来的编程语言
这里的“语言可编程”指的是,你将通过自然语言来配置新行为。
就像当前的工具调用,你只需要用自然语言告诉 LLM 何时应该使用某个工具,未来的编程也将如此——语言本身将成为主流编程语言。
谈到我们亲爱的 Andrej,这个平台的理念让我想起了他提出的 LLM OS 概念——一种软件范式,在这个范式下,软件将变得声明式,一切都运行在 LLM 之上(因为每一个软件的核心,最终都会是一个 LLM)。
如果你对这个愿景如何实现感兴趣,包括队列管理、代理权限等细节,我曾在一篇通讯文章中深入探讨过这个话题(《万亿美元级产品》)。
简单来说,构建软件将变得极其简单,未来的大多数软件和初创公司都将建立在这些模型之上。
这正是它们如此有价值的原因。即便 LLMs 最终变成了商品化产品,如果整个软件行业都依赖于你运行,那么无论利润率接近于零,你依然是一个万亿美元级的产品。
问题是:ChatGPT 会成为第一个封闭源代码的互联网协议,还是开源方案最终会赢得一切?
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· spring官宣接入deepseek,真的太香了~