10.11
虽然OpenAI的o1-preview和o1-mini在我们的基准测试中排名靠前,但我们仍然注意到一些由于上下文长度导致的独特失败例子。由于o1模型中推理步骤的词元长度难以预测,当提示内容因中间的“推理”步骤而增长时,OpenAI并不会直接使请求失败,而是返回一个空字符串的响应。
o1模型在NQ上的行为变化
尽管在Databricks DocsQA和FinanceBench数据集上的表现有所提升,我们观察到o1-preview和o1-mini模型在NQ数据集的短篇幅上下文情境中的性能下降。在短篇幅上下文情境中,如果检索到的文档中没有相关信息,o1模型更可能简单地回答“信息不可用”(我们的提示内容中包含了一个指令:“如果没有相关段落,请使用你的知识回答问题”)。
我们还注意到,在一些样本中,即便有oracle文档提供支持,o1模型依然未能提供正确答案。对于这样一个强大的模型来说,这样的性能回退令人意外。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人