未来的AI系统将更加“agentic”。不仅仅是完成任务,更能通过推理能力像人类一样逐步解决问题

【IT前沿观察】OpenAI发布o3,更高更强更快 
 
AI生成摘要
摘要
OpenAI推出o3推理模型,来看看性能有多强?进步有多快?
自由讨论详情

 

12月20日是“12 Days of OpenAI”活动的最后一天,OpenAI终于官宣了推理模型系列的最新旗舰成员:o3和o3 mini。团队称,这两款模型在性能上实现了重大突破。能够处理日益复杂的推理任务,标志着”AI技术迈入了一个全新阶段。”


o3模型:推理性能飙升,多项超人类专家


作为OpenAI当前性能最强的推理模型, o3在多项基准测试中表现卓越,特别是编程和数学领域显著提升。

 

  • 编程能力:在真实世界软件任务评估(HumanEval-Verified)中,o3以71.7%的准确率刷新记录,相比前代模型o1提升超过20%;在竞争性代码编程平台(Competition Code)上的ELO评分高达2727,远超o1的1891。


直播中, Sam问同时在教授竞技编程的研究主管Mark能拿多少分,Mark回答自己在类似平台的最好成绩大概是2500分。 Sam随即透露,o3的分数甚至超过了首席科学家Yakov。

 

当得知公司里有人能拿到 3000 多分后,Sam 调侃道:“他还能享受这优势几个月吧,o3在编程方面的表现确实不可思议。”

 

  • 数学推理:o3在美国数学奥林匹克考试(AIME)中获得前所未有的96.7%准确率,在博士级科学问题测试(GPQA Diamond)上准确率达到87.7%,显著超过人类专家平均水平的 70%。

 

  • 前沿测试五年来首次被攻克

Mark提到,在现有的传统基准测试中,o3已接近饱和,突显了更难测试的必要性。

 

最近,Epic AI的前沿数学基准测试脱颖而出,被认为是眼下最难的数学评估。该数据集包含全新、未发表且极端复杂的问题,即使专业数学家解决一道题也可能需数小时甚至数天时间。

 

目前市面上的所有产品在该测试中的准确率都低于2%,而o3在严格设置下准确率却达到了25%以上,展现出强大的数学推理能力。

 

而更大的惊喜来自o3在Arc AGI测试中的表现。

 

Arc AGI是由François Chollet在2019年设计的一个独特基准测试,旨在评估AI系统的通用智能水平。其特别之处在于,它不考察已学习的知识,而是要求模型通过观察几个示例,推断新任务规则并即时学习。例如:

推断规则 “在空格处放置深蓝色方块”;

 

或 “数出黄色方块中的彩色方块数量,再以此为宽度围住黄色方块”。

这些规则对人类来说直观,但对 AI 系统却极具挑战性。

 

在这项五年来未被攻克的测试中,o3实现了历史性突破:在低算力配置下,其准确率达到75.7%,创下公开记录新高;在高算力下表现更是提升至87.5%,高于人类平均水平的85%。

 

这是AI系统首次在需要即时理解和学习新规则的任务中超越了人类表现,验证了AI在新颖性适应方面的实质性进展。

 

不过,负责该测试的组织ARC Prize也表示,这并不代表已经实现了AGI。o3在某些简单任务上仍有失误,表明它与人类智能仍存在本质差异。他们会继续举办大奖赛,直到出现一个取得85% 成绩的高效开源的解决方案(图中可见,高算力下的o3执行每个任务需要耗费1千美元)。

 

o3 mini:性能超o1,高效低成本的理想之选


针对需要在性能与成本之间取得平衡的应用场景,OpenAI推出了o3 mini。它继承了此前o1 mini在数学和编码方面的优势,并在性价比上实现了更大突破。

 

最引人注目的是其创新的"自适应思考时间"功能,提供低、中、高三种推理强度选项,让用户能根据任务复杂度灵活调整模型的思考时间,就像给大脑切换不同的工作模式。

 

在实际的编程测试中,o3 mini在中等推理时间下性能已超越o1,而成本和延迟仅为其一小部分。意味者它能以更经济的方式完成高难度的编程任务,为开发者提供了一个理想选择。

 

研究科学家 Hongyu 通过几个案例,演示了o3 mini在高、中、低三种强度模式下的真实世界优异表现:


1. 代码生成与执行:

在高强度模式下,o3 mini被要求用Python编写一个智能编程助手。该助手配备一个简单的输入框界面,用户只需输入需求,它就能生成并执行代码。这一复杂任务充分展现了模型在编程场景中的高效性和精准性。

 

2. 自我评估能力:

在中强度模式下,o3 mini被要求评估自身在复杂 GPQA 数据集上的表现。模型生成了评估脚本,快速完成了数据集解析、问题分类、答案生成和结果评分,在1分钟内取得了61.62%的成绩。这样的表现对人类专家而言也具有较大挑战。

 

3. 效率测试与数学推理:

在低强度模式下,o3 mini的响应速度几乎与 GPT-4 持平,用户按下发送键后几乎立即得到回复。即使在中等模式下,其速度也比o1快了一倍,而这一高性能是在大幅降低成本的情况下实现的。

在美国数学奥林匹克 2024 数据集测试中,o3 mini 在中等推理时间设置下表现已与o1相当,而在高推理时间下,其表现更是超越了o1。

 

此外,o3 mini还支持函数调用、结构化输出等开发者所需的API特性。


开放测试与部署时间线


OpenAI计划在2025年1月底发布o3 mini,随后推出完整版o3。

 

即日起,研究人员和开发者可以到OpenAI官网(https://openai.com/index/early-access-for-safety-testing/#how-to-apply)申请安全测试,以获得早期访问权限。申请将持续至2025年1月10日。

 

本次发布会还特别提到, o3和o3 mini引入了全新的深度对齐(Deliberative Alignment)技术。

 

该技术通过推理用户的输入意图,大幅提升了模型对潜在不安全请求的识别能力,即使用户尝试使用隐晦语言绕过限制,模型也能准确判断危险意图。测试结果显示,o3 在安全性评估中的表现卓越,拒绝不安全请求的准确率和灵敏度均有显著提升。

 

OpenAI要放弃GPT,全力投入o系列了吗?


从今天的压轴发布来看,OpenAI正在经历一次重大的战略转向。

 

在近期的NeurIPS 2024大会上, OpenAI曾经的联合创始人Ilya Sutskever以《预训练时代终结》为题发表了演讲。他指出,AI模型的预训练方法正面临数据瓶颈,互联网可用数据如同“化石燃料”,具有不可持续性。表明传统的“更多数据和算力等于更好性能”的扩展法则正在失效,AI技术需要寻找新的发展路径。

 

Ilya预测,未来的AI系统将更加“agentic”。不仅仅是完成任务,更能通过推理能力像人类一样逐步解决问题。这种新范式可能是突破当前技术瓶颈的关键,也会带来更高的不确定性。

 

OpenAI从传统GPT大语言模型转向“o”系列推理模型,或许正是意识到仅依赖预训练的GPT模型已难以满足未来AI发展的需求。希望通过整合推理能力,为实现更高水平的智能寻找突破口。

 

除了OpenAI,类似的趋势也体现在竞争对手Google的布局中。其刚发布的Gemini 2.0 Flash Thinking被视为AI推理模型的开端,未来可能与主要语言模型深度整合。

 

各家技术公司的举措都表明,推理能力正成为行业发展的新焦点,而如何将其与通用大语言模型有机结合,可能是下一阶段AI竞争的核心方向。OpenAI开始在这个技术方向上使用GPT阶段同样的策略——快速的迭代,哪怕是期货也先展示出来再说,然后把AGI和Scaling law这些对整个行业的思考和发展以及宣传上都最重要的概念牢牢握在自己手中,由它定义。

 

在o3发布后,OpenAI的明星研究员Jason Wei就表示,更重要的是o1到o3只用了三个月,证明了新的范式下进步可以有多快。“比预训练的一两年更新一次的范式快多了。”

posted @   bonelee  阅读(25)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 推荐几款开源且免费的 .NET MAUI 组件库
· 实操Deepseek接入个人知识库
· 易语言 —— 开山篇
· 一个费力不讨好的项目,让我损失了近一半的绩效!
历史上的今天:
2024-02-06 windows栈回溯功能示例——漏洞利用检测
2022-02-06 进程注入原理——提权会用到本质上就是在进程的内存地址上做一些hack改动
2022-02-06 BypassUAC原理及方法汇总——各类的UAC白名单程序的DLL劫持;各类自动提升权限的COM接口利用(Elevated COM interface) ;Windows 自身漏洞提权;远程注入
2022-02-06 64:权限提升-Linux定时任务&环境变量&数据库
2022-02-06 63:权限提升-Linux脏牛内核漏洞&SUID&信息收集
2022-02-06 AD 域服务简介和使用——其实都是配置dns和域控服务器,各pc加入域,然后设置账号,用AD来进行统一管理
2022-02-06 metasploit之Windows Services漏洞提权实战——利用Windows服务是以SYSTEM权限运行的,如果配置错误让我们修改该服务的二进制文件路径属性,则可以实现提权
点击右上角即可分享
微信分享提示