AI 思考并不是只能依靠Token

你听说了吗——AI 模型现在可以在说出任何话之前先进行思考。

不，真的是这样。

我读了一篇新论文，它正在改变我们对 AI 推理的理解。

事实上，如果你稍微关注过 AI，可能听说过“思维链”（Chain of Thought，CoT）推理吧！！

在这些模型中，问题会一步步被拆解，并生成中间的标记，然后才会得出答案。

但但这个新的方法呢？

它让模型可以在潜在空间中进行无声思考——没有词语、没有输出，只有纯粹的思考发生在幕后的场景中，直到什么也没说出来。

为什么这很重要

好吧！！

我们稍微退后一步。

目前，我们已经看到大型语言模型（LLM）在语言操控方面非常出色。

但是一些专家认为它们其实并没有真正进行推理。

对此，最响亮的声音之一是？

Yann LeCun（Meta 的首席 AI 科学家）

他一直在说，真正的推理不仅仅是操控语言。

事实上，它需要规划、空间推理和超出语言所能描述的解决问题的能力。

他甚至进一步表示，

如果你想要达到人类级的智能，

就放弃生成型 AI 这个想法吧。

大胆吧？

好，现在回到这篇引起我注意的新论文

《用潜在推理扩展测试时计算：递归深度方法》

这篇论文实际上可能正是 LeCun 一直在要求的。

它介绍了一种模型，在输出任何单词之前，先进行深度思考。

所以，不像 CoT 模型生成额外的标记，它会通过内部计算循环，并且在发言之前多次精炼其推理。

不错，兄弟！！

那么它是怎么工作的？

这里是巧妙的地方：

该模型包含一个特殊的递归模块。

把它想象成一个无限深入的内部独白——不断修正和迭代思维，直到它足够自信生成答案。

这与传统模型不同，传统模型只是根据过去的单词预测下一个词。

但这个模型可以停下来，思考、精炼，然后决定说什么。

让我们通过可视化来比较一下这种新方法和传统 LLM 的区别：

这个视觉化展示了模型优势的重要性。它有巨大的优势：

不需要特殊的训练数据——常规的 CoT 推理需要在长链思维上进行训练。而这个模型不需要。

不需要大的上下文窗口——传统的思维模型需要大量的内存空间。而这个模型不需要。

可以推理那些不容易用语言表达的事物——这可能是最大的胜利。有些类型的推理，比如空间理解、直觉或规划，不容易用语言描述。潜在推理解决了这个问题。

证明？它真的有效

研究人员建立了一个具有 35 亿个参数和 8000 亿个训练标记的概念验证模型。

猜猜怎么着？

它在允许“思考”更长时间后，表现优于现有的模型。

这是他们发现的：

模型的表现随着在潜在空间中思考的时间增加而提升。

它不仅仅是暴力破解问题，而是实际选择何时深入思考，何时快速生成答案。

一些问题，比如简单的数学模型，不需要太多的内部思考，而复杂的道德或逻辑推理则需要更长的时间。

这不仅仅是理论。

证明就在基准测试中：

随着递归深度增加，模型的表现显著提高。

它通过利用高效的潜在推理，与具有显著更多参数的模型竞争。

它有效地平衡了计算使用，在处理复杂问题时花费更多精力，而在解决简单问题时则迅速响应。

论文中的一点技术洞察

就一点点，相信我！！

所以这个模型的架构令人着迷。

它不是仅仅依赖深度变换器和固定的层，而是引入了一个潜在的递归模块，可以动态地进行迭代。

本质上，这意味着：

递归深度扩展：模型没有固定的层数——它在测试时通过内部计算循环，按需加深自身。

计算效率：它不是通过增加标记生成来进行推理，而是优化内部计算，这大大有助于减少对大上下文窗口的需求。

新兴行为：该模型展示了诸如自适应计算、自我推测解码，甚至是数字推理的潜在空间轨道等有趣的特性。

该模型在多个推理基准上进行了测试，如

ARC、GSM8K 和 OpenBookQA

其中它展示了：

随着递归深度迭代的增加，准确性提高——直接证明了更深的内部推理带来了更好的表现。

相比于大型参数模型，它的效率更高，这意味着它能以少量参数实现大型模型智能。

基于上下文的推理，模型根据任务的复杂性动态决定“思考”多少。

这对 AI 的未来意味着什么

这是一个重要的讨论点..

我觉得这种方法可能会从根本上改变我们开发 AI 模型的方式。

我们不再仅仅关注模型规模的扩大（那既昂贵又低效），而是可以专注于让它们思考得更好。

而我觉得最疯狂的部分是——这种潜在推理并不是取代思维链，它是对它的增强。

论文建议，模型可以同时使用这两种技术：首先在潜在空间中思考，然后用实际的标记精炼推理。

听起来很像人类解决问题的方式，对吧？

想象一下，一个 AI 可以看着棋盘，真正地思考每一步；或者一个模型可以分析法律案件，推理其中的含义，而不是立刻做出结论。

这就是这项研究所指向的未来。

那么，这就是让 AI 真正智能的缺失部分吗？我不知道！！

时间会告诉我们，但它看起来很有希望。

如果你喜欢 AI 研究，一定要看看——这可能是我们见过的最大突破之一。

分享一下你的看法吧。

这些是你可以查阅的资源，让我们为这项研究者们的工作点赞。

论文来源：https://arxiv.org/abs/2502.05171

该模型可以在这个 https://huggingface.co/tomg-group-umd/huginn-0125获得。

代码和数据配方可以在这个 https://github.com/seal-rg/recurrent-pretraining找到。

posted @ 2025-02-17 13:05 果冻人工智能阅读(39) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Meta的潜在推理器，在说话之前思考的AI

· 为什么说“AI无法推理”本身就是一种偏见

· Meta-CoT：通过元链式思考增强大型语言模型的推理能力

· Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法

· 语言模型的预训练[6]：思维链(Chain-of-thought，CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应用

阅读排行：
· DeepSeek “源神”启动！「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1：开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化（本地部署与 API 调用教程）
· spring官宣接入deepseek，真的太香了~

公告

昵称：果冻人工智能
园龄： 5个月
粉丝： 45
关注： 1

+加关注

2025年2月

日

一

二

三

四

五

六

AI 思考并不是只能依靠Token

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论