【译】Claude 3, ChatGPT, 和 LLM 的消亡

原作：伊格纳西奥·德格雷戈里奥

引言：语言时代的终结？

昨天，AI 领域的另一个关键参与者 Anthropic 宣布了生成式 AI 王座的新竞争者，即 Claude 的最新版本 Claude 3。

它展示了三种模型Opus、Sonnet 和 Haiku ，每种模型都适用于特定的场景，一些初步结果显示它们是当今最强大的多模态大型语言模型（MLLMs）系列，超越了谷歌的 Gemini 1.5 和 OpenAI 的 GPT-4。

但这个消息远不止表面上看到的那么简单。

这也许是我们这个时代伟大 MLLM 模型的最后之作，为进入全新的 AI 模型让路，比如 GPT-5 或臭名昭著的 Q*，它们将与我们今天看到的模型截然不同且出奇地优越。

实际上，这个模型可能会如此强大，以至于埃隆·马斯克 (Elon Musk) 起诉 OpenAI，指控他们涉嫌隐瞒他们在内部实现通用人工智能 (AGI) 的事实。

他们对这些模型的了解可能比您想象的还要多。

新的王位继承人

昨天，一家由谷歌和亚马逊等全球一些最强大的组织投资的公司Anthropic，宣布推出了他们有史以来最强大的模型。

Opus、Sonnet 和 Haiku

这款新的Claude 3系列模型被Anthropic归类为“智能intelligence”：

Opus：根据其在任务自动化、研发和战略分析方面出色的表现，Opus 可能是世界上最有能力和最智慧的模型。它是 Gemini 1.5 和 GPT-4 的直接竞争对手。
Sonnet是“性价比最高”的版本，虽然在某些方面落后于最顶尖的模型，但速度更快、成本更低。初步结果显示，对于企业使用情景而言，可能是目前最佳选择。
Haiku是体积较小、能力较弱的模型，但仍然强大且速度极快，最初设计用于需要低延迟和实时交互的场景，同时拥有更低的成本。

如果我们查看基准，就基于文本的评估而言，结果无疑将它们定位为最佳合体（尽管与 2023 年 3 月的 GPT-4 结果相比，因此请记住这一点）：

在计算机视觉评估方面，它们紧随Gemini 1.0（以及可能的Gemini 1.5）之后：

结果令人印象深刻。

展望未来，从 Claude 的发布中我们还意识到，长序列建模已成为先进研究实验室的默认选项。

达到 100 万……甚至更多

几周前，谷歌声称将 Gemini 的上下文窗口增加到一百万token以上，令全世界感到惊讶。

而现在， Claude 也在做着同样的事情。

但什么是上下文窗口？

在 LLMs 的情况下，它是模型在任何给定时间可以处理的token、单词或子词的最大数量。

通俗地说，它是模型的工作空间，或者说是它的记忆，它被定义为一个特定的最大值，以避免 Transformer 的2次方计算复杂度，因为序列加倍会使计算量增加四倍。

例如，如果 Claude 3 的上下文窗口是 100 万个 token，这意味着该模型可以一次性同时摄取大约 75万个单词。作为参考，这比《哈利·波特》前五本书的总和还要多，这意味着您可以将它们全部输入模型并提出问题。

它通过近乎完美的检索来完成这一切，如下图所示（尽管只显示了 200k 个令牌）。当面对“大海捞针”问题时（即研究人员在极长序列中放置一个不相关的、具体的信息片段，并要求模型检索它），平均准确率超过 99%。

但昨天发生的另一件事让人们震惊了。

拥有自我意识的模型？

在测试“大海捞针”问题时，Anthropic的一组研究人员注意到了一些非同寻常的事情：

这个模型似乎意识到自己正在接受测试，仿佛它‘知道’自己正经历着什么。

具体来说，它回应道：

“我怀疑这个披萨配料的‘事实’可能是作为一个玩笑被插入到文档，或者是用来测试我是否在集中注意力，因为它根本不符合其他主题。这些文档中没有包含任何关于披萨配料的信息。”

这种元认知水平无疑令人印象深刻，也同样令人恐惧。

不过，有一个可能的解释。

在人类反馈强化学习（RLHF）阶段，研究人员可能会与模型分享几个这样的回应，以便让它学习这种模式，即每当提出一个非常具体、看似无关的问题时，怀疑这是一个评估，并提出这个问题。

尽管如此，还是令人印象深刻。

此外，据称该模型现在回答问题更加细致入微，这已成为最近的热门话题，基于Gemini最近受到反击，导致谷歌的估值下跌了900亿美元，因为 Gemini 由于对白人存在严重偏见而给出了事实上不真实的回答。

话虽如此，说实话，这似乎并未超越我们之前的技术水平。

它是一种改进，但它也几乎比竞争对手晚了一年，并且在某种程度上超过了它（至少从基准测试的角度来看，这需要再三斟酌）。

换句话说，我们可能正在见证独立LLMs 所能实现的极限。

事实上，OpenAI 似乎完全不关心 ChatGPT 可以被认为是迄今为止生产中第三好的模型，这让我相信他们正在准备的不仅仅是对 Gemini 1.5 或 Claude 3 的简单改进。

而是一种新型野兽。

从 GPT-4 到 GPT-5……或者 Q*？

我越来越相信 OpenAI 的下一个模型将是革命性的。

DALL-E 之父、参与 OpenAI 最新顶尖模型 Sora 开发的主要研究人员之一 Aditya Ramesh 昨天发布的推文让我对其更加确信。

我们是否即将见证前沿模型的支柱发生转变？

如果是这样，可能会有两种方式。

将语言与搜索结合

许多著名的研究人员，包括Google Deepmind的CEO Demis Hassabis在内，长期以来一直建议LLMs的未来是将它们与搜索算法结合，类似于AlphaGo，这是2017年首个击败世界顶尖人类棋手的AI。

1996年，加里·卡斯帕罗夫（Garry Kaspárov）被深蓝击败，但冠军仍然以4-2获胜。

在AlphaGo的案例中，它羞辱了人类。

这种新架构范式的本质很简单，并且基于一个被广泛接受但尚未完全理解的关键原则。

token越多，结果就越好。

或者，通俗地说，模型思考的时间越长，结果越好。

但这是什么意思呢？

嗯，这涉及对人类思维的两种模式进行简要审视。

思考快与慢

当您prompt一个模型时，它会自动开始工作并以极快的速度做出响应，回答迅速，毫不犹豫。

这与人类在被问到“2+2等于多少？”时的思考方式非常相似，这会促使你的大脑毫无疑问地本能地回答“4”。

根据丹尼尔·卡尼曼的两种思维模式理论，这被称为“系统1”思维，即快速且无意识的思维。

但如果我问你“24323.78 的平方根是多少？”。嗯，在这种情况下，您将花费更多时间，进入“系统2”思维模式，这是缓慢、深思熟虑且完全有意识的思维模式，这样才能给出最佳的结果。

因此，如果我们知道他们在解决问题时投入的计算和token越多越好，我们如何将这种“系统 2”思维灌输到 LLMs 中呢？

对于当前的 LLMs，您最好的机会是使用思想链 (CoT) 技术，在最简单的情况下，该技术要求模型“慢慢来”。

这对模型有很大帮助，因为它会吸引模型真正花时间回答和改进结果。

但更先进的提示技术，如姚等人的“思维树”（ToT），走得更远，实质上‘强制’LLM探索任何给定prompt的可能答案领域。

简单来说，它引诱 LLM 去探索不同的可能答案，就像你在尝试解决复杂的数学问题时所做的那样。

不幸的是，ToT意味着使用一个非常复杂的框架，其中必须多次提示 LLM 才能创建这种探索机制。

然而，我们已经有了这类实现的例子。

Alphacode 2，首创之作

与谷歌在11月发布Gemini 1.0同时，他们还发布了Alphacode 2，这是一款与搜索算法相结合的 Gemini Pro LLM，在运行时，对用户提示采样了多达一百万个可能的答案，就像一个人尝试了一百万种不同方式来解决问题，直到找到满意的答案。

这种解决方案极大地增加了成功的机会，使Alphacode 2在竞争编程中跻身85%的排位（在全球最优秀15%中），与一些世界顶尖开发人员竞争。

尽管这些模型的部署成本非常昂贵，但它们所带来的前景是巨大的，以至于许多人认为OpenAI泄露的模型Q包含某种类似的实现方式，但结合使用了 Q-learning 和 A* 搜索算法。

这些技术是什么？

简单来说，Q 学习帮助模型找到 Q 函数，即允许模型做出最大化未来奖励的最佳决策的策略。您可以将其视为一种决策策略，模型将考虑未来可能的最大回报来选择前进的道路。

A*（A-star）算法是一种搜索算法，它将帮助模型探索不同问题的可能答案。

结合使用，您会得到一个“超级LLM”，它不像今天那样匆忙地回答问题，而是会仔细评估解决问题的不同方法和解决方案，直到选择最好的方法和解决方案。

然而，我们可以更进一步。

视频，下一件大事

最近，我看到了几篇研究论文，表明我们可能即将看到人工智能的一场巨大转变，从语言作为大多数前沿模型的支柱（即LLM），转向视频模型。

换句话说，像Sora这样的模型可能是一个时代的黎明，基础模型通过无监督视频观察来学习世界，而不是通过文本。

考虑到视频比文本更能表达世界，实现这一点可能会导致人工智能能力的巨大飞跃，以至于它可以让我们更接近通用人工智能。

OpenAI 发布的 Sora（他们将其定义为“世界模拟器”）是否可能不仅仅是对 LLMs 的偏离，而是表明我们正在从文本转向领域视频？

我们不知道这一点，但是OpenAI对Anthropic发布的沉默告诉我，我们很快就会看到一个完全不同的野兽。

posted @ 2024-03-08 22:23 白鹿原老张阅读(86) 评论(0) 编辑收藏举报

刷新页面返回顶部

好好学习，天天向上

读无字之书,品惊人妙句,会难通之解,参最上禅机