Claude 3.7 Sonnet：全球首个混合推理模型

一、什么是Claude 3.7

Anthropic于2025年2月25日深夜正式推出革命性AI模型——Claude 3.7 Sonnet。在官方博文中，Anthropic称，Claude 3.7 Sonnet是Anthropic迄今为止最智能的模型，也是市场上首个混合推理模型。

作为该系列首款混合推理模型，其突破性架构实现了"即时响应"与"可扩展深度思考"的有机统一。在亚马逊的战略支持下，这款全新AI不仅以两倍于前代旗舰模型Claude 3 Opus的运算速度著称，更在编码领域展现出碾压级优势：在SWE-bench专业测试中，其验证准确率从旧版的33.4%跃升至49%，成功解决64%的复杂编程问题，全面超越GPT-4o、Gemini-1.5 Pro等主流竞品。

该模型的混合推理模式开创性地融合了两种认知维度：当用户启用"扩展思考"模式时，系统可自动生成完整的思维链。例如在解决蒙提霍尔博弈论难题时，模型不仅能在52秒内得出准确结论，还会详细展示概率计算、逻辑推导的全过程。这种动态认知切换能力，使其既能满足实时交互需求，又可胜任需要多步推理的复杂任务。

在技术实现层面，Claude 3.7 Sonnet引入了突破性的"计算机应用"功能。通过API接口，开发者可指令模型像人类一样操作计算机：包括屏幕识别、光标控制、按钮点击、文本输入等完整交互流程。Anthropic团队演示了该模型自动完成网站开发的全过程——从Chrome浏览器导航、文件修改、服务器启动到终端错误修复均自主完成，展现了接近人类开发者的工作流处理能力。

二、Claude 3.7能力

根据SWE Bench测试数据显示，Claude 3.7在代码能力方面大幅度超过了DeepSeek-R1、OpenAI的o1、o3模型，MMMLU、Math500等同样表现出色。此外，Anthropic还发布了一个专用于代码Agent Claude Code。

最关键的是，Claude 3.7 Sonnet目前所有人免费可用，目前「扩展思考」模式还没有上线。

在多项基准测试中，「扩展思考」模式加持下的Claude 3.7 Sonnet，在数学、物理、指令执行、编程等刷新SOTA。

相较于上一代Claude 3.5 Sonnet，数学、编码能力更是暴涨10%以上。

除了数学，Claude 3.7 Sonnet（64k extended thinking）几乎完全碾压o3-mini，DeepSeek R1，与Grok 3不相上下。

Sonnet 3.7显然将重点放在编码能力上，其他领域似乎并不是他们的主要关注点（你可以看到 Grok3 在MMMLU、AIME2024上是超过他的）。虽然在其他知识测试上Claude只是小幅提升，但编程能力这一下子就上了一个台阶。这表明，Anthropic希望将Sonnet定位为一款强大的编码AI。

三、扩展思考模式

Claude 3.7 Sonnet能够产生几乎即时的响应或逐步展示思考过程的详细步骤，这些步骤对用户是可见的。API用户还可以精细控制模型的思考时间。

在编码和前端网页开发方面，Claude 3.7 Sonnet得到显著提升。

除此之外，他们还推出了一款名为Claude Code的命令行工具，用于智能体编码。它能够一次性完成原本需要45分钟以上手动才能完成的工作。

目前，Claude Code仅作为有限的研究预览版提供，它使开发人员能够直接从他们的终端将大量的工程任务委托给Claude。

扩展思考模式

作为混合推理模型，它有两种思考模式：

近乎实时地反应&扩展地、循序渐进（step-by-step）地思考。

扩展思考模式可以显著帮助Claude 3.7 Sonnet提升推理能力。例如，在解决复杂的数学问题时，模型的准确率显著高于标准思考模式。此外，模型在逻辑推理和复杂分析任务中的表现也得到了显著提升。

这种性能提升不仅体现在模型的最终答案上，还体现在其推理过程的质量上。模型能够生成更详细、更准确的推理步骤，帮助用户更好地理解问题的解决方法。这种透明的推理过程不仅增强了用户对模型输出的信任，还为开发者提供了优化模型的依据。

扩展思考模式的另一个重要特点是其透明性。通过展示推理过程，可为用户提供了更丰富的信息，不仅可以看到模型的最终答案，还可以看到其思考的每一步。这种透明性增强了用户对模型输出的信任，为开发者提供了优化模型的依据。

一个模型，两种思考方式。

假设你想破解一个博弈论数学问题——蒙提霍尔问题，扔给Claude 3.7 Sonnet，然后同时选择「Extended」模式。

它便会展示详细CoT过程，用时52秒就完成了。

此外，扩展思考模式的透明性也为模型的安全性提供了额外的保障。通过监控模型的推理过程，开发者可以及时发现潜在的风险，并采取相应的措施。例如，如果模型在推理过程中表现出异常行为，开发者可以及时干预，防止模型生成有害内容。

API用户甚至还可以精准控制模型的思考时间。目前已经在全平台上线，包括亚马逊云服务Bedrock平台、谷歌云，而要想要扩展思考模式，除免费版外其他都可以用。

四、行为扩展智能体

Claude 3.7 Sonnet具备了一项被称为「行为扩展」（action scaling）的新特性——这种改进使其能够迭代调用函数、响应环境变化，并持续操作直到完成开放式任务。

例如在计算机使用方面：Claude能够通过发出虚拟鼠标点击和键盘按键来代替用户完成任务。与前代相比Claude 3.7 Sonnet能够在计算机使用任务中投入更多的交互次数，同时配备更充足的时间和计算资源，因此往往能取得更好的结果。

这一进步在OSWorld评估中得到了充分体现，这是一个用于评估多模态AI智能体能力的测试平台。

Claude 3.7 Sonnet在初始阶段就展现出了较好的表现，而随着其持续与虚拟计算机交互，其性能优势还会随时间推移而不断扩大。

五、惊人的编码能力

这里展示几个用Claude 3.7实现的开发效果

第一个 100个彩球在球体内

（提示词：编写一个 p5.js 脚本，模拟 100 个彩球在球体内弹跳。每个球都应留下一条逐渐消失的轨迹，显示其最近的运动轨迹。容器球体应缓慢旋转。确保实现适当的碰撞检测，使球保持在球体内。）

布料模拟

太阳系模型

posted @ 2025-02-25 13:59 方倍工作室阅读(664) 评论(0) 收藏举报

刷新页面返回顶部