全新 AI 模型 OpenAI o1-preview:解决复杂问题的新利器
2024年9月12日,OpenAI 宣布推出全新系列的 AI 模型——OpenAI o1-preview。这一系列模型专为解决复杂问题而设计,能够在科学、编程和数学等领域表现出色。今天,我们将在 ChatGPT 和 API 中发布这一系列的首个模型,并计划定期进行更新和改进。
标题:新 ChatGPT 下拉菜单显示 "o1-preview" 模型选项,背景为明亮的黄色和蓝色抽象图案
这些模型是如何工作的?
我们训练这些模型时,特别注重让它们在回答之前花更多时间思考。就像人类一样,通过训练,它们学会了优化思考过程,尝试不同策略,并识别错误。在我们的测试中,这些模型在物理、化学和生物学等挑战性基准任务中的表现堪比博士生。此外,它们在数学和编程方面也表现出色。例如,在国际数学奥林匹克(IMO)预选考试中,GPT-4o 仅能正确解决13%的问题,而推理模型则达到了83%。在 Codeforces 编程竞赛中,它们的表现也达到了第89百分位。
虽然作为早期模型,它还没有许多使 ChatGPT 变得实用的功能,比如浏览网页和上传文件和图片,但在复杂推理任务方面,这是一项重大进步,代表了 AI 能力的新水平。因此,我们将这一系列命名为 OpenAI o1。
安全性
在开发这些新模型的过程中,我们提出了一种新的安全训练方法,利用它们的推理能力来遵守安全和对齐指南。通过在上下文中推理我们的安全规则,它们能够更有效地应用这些规则。
我们通过测试模型在用户试图绕过安全规则(称为“越狱”)时的表现来衡量安全性。在我们最难的越狱测试中,GPT-4o 得分为22(满分100),而 o1-preview 模型得分为84。为了匹配这些模型的新能力,我们加强了安全工作、内部治理和与联邦政府的合作,包括严格的测试和评估。
为了推进我们对 AI 安全的承诺,我们最近与美国和英国的 AI 安全研究所正式达成协议,并开始实施这些协议,包括向研究所提供该模型的早期访问权限。这是我们合作的重要第一步,目的是确保 AI 技术的安全和负责任应用。
下一步计划
OpenAI 计划继续改进 o1-preview 模型,并定期发布更新,进一步提升其性能和安全性。我们还在探索如何将这些强大的推理模型整合到更广泛的应用场景中,包括支持更复杂的编程任务、科学研究和其他需要深度分析的领域。
虽然目前的发布版本仍然是预览版本,但我们已经开始与各类研究机构和企业合作,收集反馈,以便更好地优化后续版本。此外,我们也在积极探索如何将这些模型应用于实际生产环境中,帮助解决现实世界中的复杂问题。
总结
OpenAI o1-preview 系列模型标志着 AI 解决复杂问题能力的重大突破。通过在推理和安全性方面的显著提升,这些模型展示了新的潜力,特别是在科学、编程和数学等领域。尽管目前它们仍处于早期阶段,但其表现已经远超前代 AI 模型,展示了强大的应用前景。
未来,随着我们不断优化和改进这些模型,AI 将在更多领域中发挥关键作用,帮助解决人类面临的最复杂挑战。