Google发布了它所称的“推理”AI模型
Google发布了它所称的“推理”AI模型——但这还处于实验阶段,根据我们简短的测试,显然仍有改进空间。
这个新模型名为Gemini 2.0 Flash Thinking Experimental(名字有点长,确实),可以在Google的AI原型平台AI Studio中使用。模型卡片描述它是“最适合多模态理解、推理和编程”的,具有在编程、数学和物理等领域“推理解决最复杂问题”的能力。
在X上的一篇帖子中,负责AI Studio产品的Logan Kilpatrick称Gemini 2.0 Flash Thinking Experimental是“[Google]推理之旅的第一步”。Google DeepMind的首席科学家Jeff Dean在他自己的帖子中表示,Gemini 2.0 Flash Thinking Experimental是“经过训练,利用思考来增强其推理能力”。
“当我们增加推理时间计算时,看到了一些有希望的结果,”Dean表示,他指的是在考虑问题时,模型所使用的计算量。
基于Google最近发布的Gemini 2.0 Flash模型,Gemini 2.0 Flash Thinking Experimental在设计上似乎与OpenAI的o1以及其他所谓的推理模型相似。与大多数AI不同,推理模型能有效自我事实核对,这帮助它们避免了通常会让AI模型陷入的陷阱。
作为一种缺点,推理模型通常需要更长时间——通常是几秒到几分钟的时间——才能得出解决方案。
TC会议:AI
加入1200位科技领袖,参加在TechCrunch Sessions:AI上的一整天主舞台会议、分组讨论和网络交流。加入候补名单,成为第一批提前注册的人。
Zellerbach Hall,UC Berkeley | 2025年6月5日
加入候补名单
给定一个提示,Gemini 2.0 Flash Thinking Experimental在回应之前会暂停,考虑多个相关提示并“解释”其推理过程。过一段时间后,模型会总结出它认为最准确的答案。
好吧——这应该是发生的事情。当我问Gemini 2.0 Flash Thinking Experimental“草莓”这个词里有几个“R”时,它回答是“两个”。
Google推理模型
Google的新推理模型在计数字母时有时会遇到困难。
图片来源:Google
你的体验可能会有所不同。
在o1发布之后,竞争对手AI实验室的推理模型如雨后春笋般涌现——不仅仅是Google。11月初,DeepSeek,一家由量化交易员资助的AI研究公司,发布了其首个推理模型DeepSeek-R1的预览。同月,阿里巴巴的Qwen团队推出了他们声称是第一个“开放”版本的o1挑战者。
彭博社在10月报道,Google有多个团队在开发推理模型。随后《信息》网站的报道显示,Google至少有200名研究人员专注于这项技术。
是什么打开了推理模型的大门?嗯,一方面是寻找新的方法来改进生成型AI。正如我的同事Max Zeff最近报道的,“蛮力”技术已经无法像以前那样推动模型的规模化进展。
并不是每个人都确信推理模型是最好的发展方向。首先,它们往往很昂贵,因为运行它们需要大量的计算能力。而且虽然它们在基准测试中表现良好,但目前尚不清楚推理模型是否能够保持这样的进展速度。