大模型开始学习像人类般思考，通往AGI到哪一步了？

　　2个月前，大模型数学能力弱的问题广泛引起关注，市面上多款大模型甚至无法做对“9.11和9.9哪个大”的简单数学题。2个月后，业内正在逐步解决大模型数学能力限制的问题。

　　北京时间9月13日凌晨，OpenAI在没有预告的情况下发布了一个新的推理（reasoning）模型系列，包括o1-preview、o1和o1-mini三个型号。这便是OpenAI传闻已久的具有高级推理能力的“草莓项目”。据OpenAI介绍，新系列模型在数据和编码方面表现出色，在国际数学奥林匹克竞赛（IMO）的资格考试中得分83%。

　　尝试突破数学能力限制的不只OpenAI。谷歌DeepMind团队此前也推出了Al系统AlphaProof，用于解决复杂的数学问题。

　　突破数学能力极限是AI技术演进、通往AGI（通用人工智能)路上的新一步。在考文垂大学教授、英伟达人工智能技术中心全球主管Simon See（西蒙·西）看来，业界在提升AI数学能力背后，包括了将LLM（大语言模型）结合其他更多技术的努力，结合不同技术的努力产生了一种通往AGI（通用人工智能）的潜在动力。

　　如何解决数学能力限制？

　　“对复杂的推理任务而言，这是一个重大进步，代表人工智能能力的一个新水平。”OpenAI在介绍o1系列模型时写到。OpenAI CEO Sam Altman（萨姆·奥尔特曼）也在社交平台上表示，该新模型是一个新范式的开始，即AI能够进行通用复杂推理。

　　数学能力增强是该系列模型的一个重要特点。OpenAI介绍，新系列模型更新后的性能类似于博士生在物理、化学、生物学中完成具挑战性的基准任务，在国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o仅正确解决了13%的问题，而该新模型得分为83%。

　　就新模型如何实现更好的数学、编程能力，OpenAI介绍，公司用大规模强化学习算法“教会”模型在数据高效训练时用思维链进行高效思考，类似于人类在回答困难问题之前思考很长时间，随着强化学习增加和思考时间增加，o1性能不断提高。OpenAI研究人员Noam Brown称，o1为大模型缩放（scaling）开辟了新维度，让大模型不再受预训练的瓶颈限制，现在也可以扩展推理计算。而就推理能力增强后的作用，OpenAI则表示，可用于医疗保健领域注释细胞测序数据、物理研究领域生成复杂数学公式等。

　　谷歌DeepMind则是通过结合LLM之外的其他技术来增强AI系统的最终表现。AlphaProof也基于强化学习，是用于数学推理的系统。该系统训练自身用以证明Lean编程语言（一种用于帮助验证定理的编程语言），且结合了训练语言模型与AlphaZero强化学习算法。据谷歌介绍，Lean使该系统在涉及数学推理证明时可以验证正确性。遇到问题时，AlphaProof会生成候选解决方案，再通过在Lean中搜索可能的证明步骤来进行证明或反驳。

　　不论技术原理是否有相同点，AlphaProof和OpenAI o1相比以往的模型，都趋于进行深度思考，而不仅依赖于LLM预测并迅速生成下一token（词元）的能力。

　　如何通往AGI？

　　此前有大模型研发人员告诉记者，大模型数学能力弱的一个原因是没有用到大量高质量的数学数据训练模型，随着数据质量提升，数学能力弱的问题可以解决。不过，除了训练数据的原因，业内分析LLM数学能力差也是因为通过预测下一token的方式并不真正智能。从近期动态看，包括OpenAI和谷歌DeepMind在内，业界正从AI系统运行机制上解决数学和推理能力差的问题，实际上是在通过各种技术弥补LLM运行方式的不足，在某种程度上让LLM的思考方式变得更像人类。

　　就LLM的能力局限、如何解决诸如数学能力等问题、如何从现有的LLM迈向AGI，业内仍在探讨问题根源和解决方案，多名业内资深人士近日在沙特数据和人工智能管理局主办的GAIN SUMMIT世界人工智能峰会上进行了探讨。峰会上，Simon See表示，现在的人工智能是“狭隘”的，很多人认为LLM会成为实现AGI的动力，但人们其实没真正理解它是如何工作，现在仍处于开发LLM的边缘。现在还有很多问题需要解决，例如不能建立越来越大的模型，因为无法提供无限的能源。

　　“我们现在就是有大量数据，将模型训练得足够大，就涌现出了能力。在我看来，依靠单一技术不可行，现在业内正在努力的方向包括让LLM结合其他知识和技术如新的符号、微积分等来进行理解和推理。”Simon See表示，不同技术的结合近期取得巨大进步，DeepMind的AlphaProof便结合了Lean编程语言、语言模型等，使AI能用于数学证明。让LLM结合各种技术，使AI系统拥有通往AGI的潜在动力。

　　Alpha Intelligence Captal联合创始人兼管理合伙人Antoine Blondeau（安东尼·布朗多）也认为，机器最终比人类更出色已成定局，但达成这个结果需要一定时间，还有大量科学工作要做。他判断，AI将不会是一个单一模型，可能是多种模型的结合，机器最终将要学会像人一样会观察、证明或反驳、概括，在现实世界中学习。

　　就目前LLM的机制和局限，Antoine Blondeau认为，人类从生活中学习，其中95%是从“带声音的视频”中学习，我们生活的本质基本就是“打开视频”，另外5%是来自文本例如书籍。人类会从视频中学习到语义，例如出现5根手指的时候，意味着可能是人类或其他动物，人类还会从视频中理解时间的顺序和事件因果。但机器从视频中学习的时候，它的任务则是预测下一个像素，这不是人类的方式。如果我们无法让机器像人类这般如此学习，机器就很难达到更高的智能水平。

　　机器学习知名科学家、大模型初创公司Boson AI创始人兼CEO Alex Smola（亚历克斯·斯莫拉）点出LLM运行方式的局限也与token预测有关。他表示，LLM可预测下一个token（词元）的能力已被用于理解图像、声音、制作声音，在过去12个月，所有东西似乎都变成了token。

　　“某种程度上我们已经开始耗尽可用的token数量。粗略估算，或许已有100万亿tokens，这可能是人类所能用于建造LLM的tokens。现在还有很多视频、音频供给，某种程度上这将发挥作用，这还依靠英伟达或其他公司生产能处理这些模态的芯片。”Alex Smola表示，在可见的未来，LLM核心可能是序列建模（sequence modeling），现在能看到数据、硬件的收敛，概率模型也朝着相似的结构演进，可以看看相关探索接下来几年能走多远。