AI 思考并不是只能依靠Token
你听说了吗——AI 模型现在可以在说出任何话之前先进行思考。
不,真的是这样。
我读了一篇新论文,它正在改变我们对 AI 推理的理解。
事实上,如果你稍微关注过 AI,可能听说过“思维链”(Chain of Thought,CoT)推理吧!!
在这些模型中,问题会一步步被拆解,并生成中间的标记,然后才会得出答案。
但但这个新的方法呢?
它让模型可以在潜在空间中进行无声思考——没有词语、没有输出,只有纯粹的思考发生在幕后的场景中,直到什么也没说出来。
为什么这很重要
好吧!!
我们稍微退后一步。
目前,我们已经看到大型语言模型(LLM)在语言操控方面非常出色。
但是一些专家认为它们其实并没有真正进行推理。
对此,最响亮的声音之一是?
Yann LeCun(Meta 的首席 AI 科学家)
他一直在说,真正的推理不仅仅是操控语言。
事实上,它需要规划、空间推理和超出语言所能描述的解决问题的能力。
他甚至进一步表示,
如果你想要达到人类级的智能,
就放弃生成型 AI 这个想法吧。
大胆吧?
好,现在回到这篇引起我注意的新论文
《用潜在推理扩展测试时计算:递归深度方法》
这篇论文实际上可能正是 LeCun 一直在要求的。
它介绍了一种模型,在输出任何单词之前,先进行深度思考。
所以,不像 CoT 模型生成额外的标记,它会通过内部计算循环,并且在发言之前多次精炼其推理。
不错,兄弟!!
那么它是怎么工作的?
这里是巧妙的地方:
该模型包含一个特殊的递归模块。
把它想象成一个无限深入的内部独白——不断修正和迭代思维,直到它足够自信生成答案。
这与传统模型不同,传统模型只是根据过去的单词预测下一个词。
但这个模型可以停下来,思考、精炼,然后决定说什么。
让我们通过可视化来比较一下这种新方法和传统 LLM 的区别:
这个视觉化展示了模型优势的重要性。它有巨大的优势:
不需要特殊的训练数据——常规的 CoT 推理需要在长链思维上进行训练。而这个模型不需要。
不需要大的上下文窗口——传统的思维模型需要大量的内存空间。而这个模型不需要。
可以推理那些不容易用语言表达的事物——这可能是最大的胜利。有些类型的推理,比如空间理解、直觉或规划,不容易用语言描述。潜在推理解决了这个问题。
证明?它真的有效
研究人员建立了一个具有 35 亿个参数和 8000 亿个训练标记的概念验证模型。
猜猜怎么着?
它在允许“思考”更长时间后,表现优于现有的模型。
这是他们发现的:
模型的表现随着在潜在空间中思考的时间增加而提升。
它不仅仅是暴力破解问题,而是实际选择何时深入思考,何时快速生成答案。
一些问题,比如简单的数学模型,不需要太多的内部思考,而复杂的道德或逻辑推理则需要更长的时间。
这不仅仅是理论。
证明就在基准测试中:
随着递归深度增加,模型的表现显著提高。
它通过利用高效的潜在推理,与具有显著更多参数的模型竞争。
它有效地平衡了计算使用,在处理复杂问题时花费更多精力,而在解决简单问题时则迅速响应。
论文中的一点技术洞察
就一点点,相信我!!
所以这个模型的架构令人着迷。
它不是仅仅依赖深度变换器和固定的层,而是引入了一个潜在的递归模块,可以动态地进行迭代。
本质上,这意味着:
递归深度扩展:模型没有固定的层数——它在测试时通过内部计算循环,按需加深自身。
计算效率:它不是通过增加标记生成来进行推理,而是优化内部计算,这大大有助于减少对大上下文窗口的需求。
新兴行为:该模型展示了诸如自适应计算、自我推测解码,甚至是数字推理的潜在空间轨道等有趣的特性。
该模型在多个推理基准上进行了测试,如
ARC、GSM8K 和 OpenBookQA
其中它展示了:
随着递归深度迭代的增加,准确性提高——直接证明了更深的内部推理带来了更好的表现。
相比于大型参数模型,它的效率更高,这意味着它能以少量参数实现大型模型智能。
基于上下文的推理,模型根据任务的复杂性动态决定“思考”多少。
这对 AI 的未来意味着什么
这是一个重要的讨论点..
我觉得这种方法可能会从根本上改变我们开发 AI 模型的方式。
我们不再仅仅关注模型规模的扩大(那既昂贵又低效),而是可以专注于让它们思考得更好。
而我觉得最疯狂的部分是——这种潜在推理并不是取代思维链,它是对它的增强。
论文建议,模型可以同时使用这两种技术:首先在潜在空间中思考,然后用实际的标记精炼推理。
听起来很像人类解决问题的方式,对吧?
想象一下,一个 AI 可以看着棋盘,真正地思考每一步;或者一个模型可以分析法律案件,推理其中的含义,而不是立刻做出结论。
这就是这项研究所指向的未来。
那么,这就是让 AI 真正智能的缺失部分吗?我不知道!!
时间会告诉我们,但它看起来很有希望。
如果你喜欢 AI 研究,一定要看看——这可能是我们见过的最大突破之一。
分享一下你的看法吧。
这些是你可以查阅的资源,让我们为这项研究者们的工作点赞。
论文来源:https://arxiv.org/abs/2502.05171
该模型可以在这个 https://huggingface.co/tomg-group-umd/huginn-0125获得。
代码和数据配方可以在这个 https://github.com/seal-rg/recurrent-pretraining找到。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· spring官宣接入deepseek,真的太香了~