OpenAI 的变化对行业意味着什么？

哎呀，中国AI的发展可是搅动了一番风云。害怕自己正在失去对 AI 话语权的掌控，OpenAI 决定是时候全力出击了。

除了最近意外发布的 o3-mini 模型之外，Sam Altman 昨天还宣布了接下来几周/几个月的路线图，而这些变化相当显著；他们真的在改变 ChatGPT 的运作方式，并最终明确了 OpenAI 从一开始对 ChatGPT 的终极目标。

如果你对接下来几周和几个月 AI 领域会如何变化，以及这将如何影响软件的未来感兴趣，那就继续往下读吧

从模型到系统

讽刺的是，这家以“OpenAI”命名的神秘 AI 公司，已经被认为是“行业的门面”超过两年了。

但还能持续多久？

最近，由于大众的无知多于其实际可信度，DeepSeek 对这一王座发起了挑战。

OpenAI 非常清楚自己的业务正在迅速商品化，也比任何人都更明白保持话语权的重要性，尤其考虑到他们今年计划融资高达 400 亿美元（如果 Elon Musk 允许的话）。

因此，在过去几周里，它大幅加快了“交付”速度——在初创企业领域，这个词指的是推出新产品或新功能。

但昨天，OpenAI 更进一步，并且看起来像是有史以来第一次，比以往任何时候都提供了更多关于他们计划的细节。

理解模型本质的不同

要真正理解 OpenAI 的公告意味着什么，首先有必要澄清一些事情。

首先，我们必须明白当前 AI 系统的前沿基于两种模型类型（它们在底层几乎相同，但在实践中的行为显著不同，因此需要区分）：

预训练模型，也被称为“非推理模型”

这些就是所谓的“大型语言模型”（LLMs），是经过训练、掌握尽可能多数据的庞大 AI 模型，训练数据达到数十万亿字（作为参考，Llama 3.1 405B 训练了 15 万亿 tokens，约 11–12.5 万亿字，而 DeepSeek v3 训练了 14.8 万亿 tokens，处于相同范围）。

代表性例子包括 GPT-4（OpenAI）、Opus（Anthropic）、Gemini 2.0（Google）或 Grok-2 和 Grok-3（xAI，后者尚未发布）。

这些模型最大的特点是它们如何生成回复：它们是快速思考者。在收到用户请求后，它们会立刻确定回答，而不会犹豫。可以把它们想象成“直觉机器”，就像你在回答问题时总是依赖你的第一直觉一样。

如果你喜欢类比的话，它们的思维方式类似于《辛普森一家》的荷马·辛普森或《恶搞之家》的彼得·格里芬——几乎没有什么思考过滤，脑子里想到什么就直接说出来。

推理模型，也称为“大型推理模型”（LRMs）

目前业界热议的话题，它们的行为略有不同。它们不会仅仅依赖第一反应，而是采取多步推理的方法来回答问题——更慢、更深思熟虑的思考方式，就像你在解决一个复杂任务时所做的那样。

它们是慢速思考者。

但为什么我们需要这个？

正如 OpenAI 推理团队负责人 Noam Brown 所说：“有些问题，经过更长时间的思考会更有益。” 这意味着推理模型不会立刻给出答案，而是会进行反思、反复推敲、回溯并寻找替代方案，直到找到一个符合用户需求的答案。可以把这个过程想象成你在解决一道复杂数学题时的思考方式。

当然，这些模型主要是为解决复杂问题而设计的，但对于不需要深度思考的问题，比如“波兰的首都是哪里”这类知识性问题，它们并不比 LLMs 更有优势。

在 OpenAI 的产品层面上，这种区别非常明确：

• 非推理模型包括 GPT-4o 和 GPT-4。

• 推理模型包括“o 家族”，比如 o1、o3 及其各自的 mini 版本。

然而，必须明确的是，在推理模型的核心，依然是一个非推理模型。就像人类在解决难题时，既会运用直觉，也会利用知识。换句话说，一个推理模型本质上就是一个 LLM（也就是一个拥有良好问题解决直觉并且对世界有大量认知的模型），但它被训练成以多步方式进行问题求解。

例如，GPT-4o 是 o1 的核心，而 GPT-4.5 很可能是 o3 的核心。

不过，目前 ChatGPT 的界面强制用户在每种情况下选择要使用的模型，这基本上是基于我们刚刚讨论的任务区分，但却要求用户自己做出选择——这远称不上理想。

那么，接下来会发生什么？

先是 Orion，然后是系统

首先推出 Orion，也就是 GPT-4.5

一个非推理的新一代 SOTA（最先进）模型

换句话说，OpenAI 的下一个发布版本将是类似于我们前面讨论的第一种类型的模型——一种“直觉机器”。不，这个模型并不适用于推理任务，尽管它比 o1 或 o3 更新，但它应该在更广泛的任务上表现更好，特别是那些不涉及多步问题求解的任务。

此外，我们预计这个模型将是多模态的，也就是说，它的训练数据不仅限于文本，还包括图像、音频，甚至可能是视频。

那么，我们是否可以期待 GPT-4.5 具备生成视频、图像、音频和文本的能力？不一定。OpenAI 早已为每种数据类型开发了专门的工具。

我的意思是，这个模型应该能够处理所有这些数据类型，至少作为一个“任意输入到文本”的模型。简单来说，你可以向它输入任何数据类型，它都能理解并与你交流。

至于视频、图像和音频的生成，我预计 OpenAI 会继续使用专门的应用模型，比如 Sora 负责视频生成，这些模型将成为 GPT-5 生态系统的一部分。毕竟，创建一个完全端到端的多模态编码-解码系统成本极高，而 OpenAI 更可能采用下文所述的路由方法来节省成本。

总而言之，我们应该期待 OpenAI 的下一个版本成为一个在知识性和创造性任务上表现出色的模型，它能够理解各种数据格式，并至少能基于这些数据生成文本。

这将引领我们走向下一个重大发布——GPT-5，GPT 正式成为一个系统。

最先进的 AI 系统

正如 Sam Altman 所描述的，GPT-5 将不再是单一模型，而是由多个模型、路由器和工具组成的“星座”系统。

换句话说，用户将只有一个入口，而在后台，ChatGPT 将动态地将你的请求路由到最适合该任务的模型，从此彻底消除繁琐的模型下拉菜单。

                              一个路由器将决定使用哪个 LLM、工具或记忆来源。 来源

反过来，这将使 OpenAI 在决定哪个模型来回答你的问题时拥有更大的控制权，同时也能更好地管理推理成本。

例如，许多人在有更大的模型可用时，可能会直接忽略 mini 版本，即使 mini 模型在某些任务上能够更快、更低成本地完成工作。

这种选择导致 OpenAI 产生更多的额外开销，纯粹是“因为用户的偏好”，因此，如果 OpenAI 直接为你做出决策，毫无疑问将大幅提升成本效率。

最大的问题在于，他们是否会允许某种程度的自定义或用户偏好设置？

无论是模型选择、微调自己的模型、向量存储（数据库），还是工具（尤其是对 AI 代理来说至关重要），是否会给予用户自由度？

但 OpenAI 为什么要这样做？

计算机的未来

撇开 AGI（通用人工智能）的愿景，ChatGPT 目前的最终目标似乎是成为软件的“语言可编程后端”。

将 ChatGPT 仅仅称为“聊天机器人”已经是极端简化的说法。如果说它们在向某种方向演变，那就是 AI 驱动的构建平台。而这种转变——从简单的聊天界面，到一个连接工具执行的对话式数据库——将会让这个产品变得极具吸引力。无论是 ChatGPT、Gemini（谷歌也明确表示这是他们的目标），还是 Llama，未来的软件开发如果不基于 GPT-5 这类系统，都会显得不可思议。

通过一个 API 连接，这些平台将能够提供：

• 数据存储，支持非结构化数据（图像、音频）和结构化数据（参考 Uber 的语言到 SQL 模型）。

• 语言可编程的工具调用与执行（也就是说，模型可以代表你采取行动）。

• 在后端与代理式前端之间提供语言可编程的聊天接口（未来的软件开发将是代理与代理之间的对话）。

• 自动工具和模型路由，后端会根据请求动态适配，而无需你手动编写基于规则的逻辑，后端将变得高度自适应，几乎不需要编程。

语言编程：未来的编程语言

这里的“语言可编程”指的是，你将通过自然语言来配置新行为。

就像当前的工具调用，你只需要用自然语言告诉 LLM 何时应该使用某个工具，未来的编程也将如此——语言本身将成为主流编程语言。