Claude 3.7 Sonnet:全球首个混合推理模型

一、什么是Claude 3.7

Anthropic于2025年2月25日深夜正式推出革命性AI模型——Claude 3.7 Sonnet。在官方博文中,Anthropic称,Claude 3.7 Sonnet是Anthropic迄今为止最智能的模型,也是市场上首个混合推理模型。

 

作为该系列首款混合推理模型,其突破性架构实现了"即时响应"与"可扩展深度思考"的有机统一。在亚马逊的战略支持下,这款全新AI不仅以两倍于前代旗舰模型Claude 3 Opus的运算速度著称,更在编码领域展现出碾压级优势:在SWE-bench专业测试中,其验证准确率从旧版的33.4%跃升至49%,成功解决64%的复杂编程问题,全面超越GPT-4o、Gemini-1.5 Pro等主流竞品。

该模型的混合推理模式开创性地融合了两种认知维度:当用户启用"扩展思考"模式时,系统可自动生成完整的思维链。例如在解决蒙提霍尔博弈论难题时,模型不仅能在52秒内得出准确结论,还会详细展示概率计算、逻辑推导的全过程。这种动态认知切换能力,使其既能满足实时交互需求,又可胜任需要多步推理的复杂任务。

在技术实现层面,Claude 3.7 Sonnet引入了突破性的"计算机应用"功能。通过API接口,开发者可指令模型像人类一样操作计算机:包括屏幕识别、光标控制、按钮点击、文本输入等完整交互流程。Anthropic团队演示了该模型自动完成网站开发的全过程——从Chrome浏览器导航、文件修改、服务器启动到终端错误修复均自主完成,展现了接近人类开发者的工作流处理能力。

 

 

二、Claude 3.7能力

 

根据SWE Bench测试数据显示,Claude 3.7在代码能力方面大幅度超过了DeepSeek-R1、OpenAI的o1、o3模型,MMMLU、Math500等同样表现出色。此外,Anthropic还发布了一个专用于代码Agent Claude Code。

 

最关键的是,Claude 3.7 Sonnet目前所有人免费可用,目前「扩展思考」模式还没有上线。

在多项基准测试中,「扩展思考」模式加持下的Claude 3.7 Sonnet,在数学、物理、指令执行、编程等刷新SOTA。

相较于上一代Claude 3.5 Sonnet,数学、编码能力更是暴涨10%以上。

除了数学,Claude 3.7 Sonnet(64k extended thinking)几乎完全碾压o3-mini,DeepSeek R1,与Grok 3不相上下。

 

Sonnet 3.7显然将重点放在编码能力上,其他领域似乎并不是他们的主要关注点(你可以看到 Grok3 在MMMLU、AIME2024上是超过他的)。虽然在其他知识测试上Claude只是小幅提升,但编程能力这一下子就上了一个台阶。这表明,Anthropic希望将Sonnet定位为一款强大的编码AI。

三、 扩展思考模式

 

Claude 3.7 Sonnet能够产生几乎即时的响应或逐步展示思考过程的详细步骤,这些步骤对用户是可见的。API用户还可以精细控制模型的思考时间。

在编码和前端网页开发方面,Claude 3.7 Sonnet得到显著提升。

除此之外,他们还推出了一款名为Claude Code的命令行工具,用于智能体编码。它能够一次性完成原本需要45分钟以上手动才能完成的工作。

目前,Claude Code仅作为有限的研究预览版提供,它使开发人员能够直接从他们的终端将大量的工程任务委托给Claude。

 

 扩展思考模式

作为混合推理模型,它有两种思考模式:

近乎实时地反应&扩展地、循序渐进(step-by-step)地思考。

扩展思考模式可以显著帮助Claude 3.7 Sonnet提升推理能力。例如,在解决复杂的数学问题时,模型的准确率显著高于标准思考模式。此外,模型在逻辑推理和复杂分析任务中的表现也得到了显著提升。

这种性能提升不仅体现在模型的最终答案上,还体现在其推理过程的质量上。模型能够生成更详细、更准确的推理步骤,帮助用户更好地理解问题的解决方法。这种透明的推理过程不仅增强了用户对模型输出的信任,还为开发者提供了优化模型的依据。

扩展思考模式的另一个重要特点是其透明性。通过展示推理过程,可为用户提供了更丰富的信息,不仅可以看到模型的最终答案,还可以看到其思考的每一步。这种透明性增强了用户对模型输出的信任,为开发者提供了优化模型的依据。

 

一个模型,两种思考方式。

假设你想破解一个博弈论数学问题——蒙提霍尔问题,扔给Claude 3.7 Sonnet,然后同时选择「Extended」模式。

它便会展示详细CoT过程,用时52秒就完成了。

 

 

 

 

 

 

此外,扩展思考模式的透明性也为模型的安全性提供了额外的保障。通过监控模型的推理过程,开发者可以及时发现潜在的风险,并采取相应的措施。例如,如果模型在推理过程中表现出异常行为,开发者可以及时干预,防止模型生成有害内容。

API用户甚至还可以精准控制模型的思考时间。目前已经在全平台上线,包括亚马逊云服务Bedrock平台、谷歌云,而要想要扩展思考模式,除免费版外其他都可以用。

 

四、行为扩展智能体

Claude 3.7 Sonnet具备了一项被称为「行为扩展」(action scaling)的新特性——这种改进使其能够迭代调用函数、响应环境变化,并持续操作直到完成开放式任务。

例如在计算机使用方面:Claude能够通过发出虚拟鼠标点击和键盘按键来代替用户完成任务。与前代相比Claude 3.7 Sonnet能够在计算机使用任务中投入更多的交互次数,同时配备更充足的时间和计算资源,因此往往能取得更好的结果。

这一进步在OSWorld评估中得到了充分体现,这是一个用于评估多模态AI智能体能力的测试平台。

Claude 3.7 Sonnet在初始阶段就展现出了较好的表现,而随着其持续与虚拟计算机交互,其性能优势还会随时间推移而不断扩大。

五、惊人的编码能力

这里展示几个用Claude 3.7实现的开发效果

第一个 100个彩球在球体内

(提示词:编写一个 p5.js 脚本,模拟 100 个彩球在球体内弹跳。每个球都应留下一条逐渐消失的轨迹,显示其最近的运动轨迹。容器球体应缓慢旋转。确保实现适当的碰撞检测,使球保持在球体内。)

 

布料模拟

太阳系模型

 

posted @   方倍工作室  阅读(276)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
点击右上角即可分享
微信分享提示