OpenAI两年都未能改善幻觉问题

在过去的两年中,OpenAI最新的模型在基于事实的问答方面明显比GPT-4差。实际上,o3-mini在回答最简单的问题时,准确率仅为13.4%。OpenAI的内部测试记录了这一隐藏的事实。

神话般的o3幻觉率

你想看看一些荒谬的东西吗?看看Perplexity的回答:

Perplexity、ChatGPT和Google都重复了一个神话,声称o3 mini的幻觉率仅为0.8%。为什么这荒谬?OpenAI自己的系统卡片指出,o3在PersonQA基准测试中的幻觉率为14.8%。而即便如此,这也只是给实际情况涂上了糖衣——如下所示。

如果OpenAI自己的系统卡片给出了14.8%的幻觉率,为什么几乎所有的文章却都在谈论0.8%的幻觉率呢?

o3-mini在简单问题上的准确率为13.4%

你没有看错标题。OpenAI的o3-mini大约只有10个简单问题中答对1个。让我用OpenAI自己的资料来证明这一点。

OpenAI在2024年10月30日推出了SimpleQA基准测试。根据OpenAI的说法,这个基准测试是“为了衡量语言模型的事实性”。更具体地说,SimpleQA是OpenAI自己用来评估LLM幻觉率的基准测试,“在一个有限的设置下,短小的、寻求事实的查询有一个单一的、可验证的答案。”

因此,SimpleQA比生产环境中对LLM的要求要简单得多。因此,它的测量实际上是幻觉率的下限,而不是上限。例如,o1的幻觉率为44%。没错,几乎每2个回答中就有1个是幻觉——在一个可能是模型训练时用的过于简单的测试上。

大多数生产环境比“有限的设置下,短小的、寻求事实的查询有一个单一的、可验证的答案”要复杂得多。因此,在使用o1进行问答任务时,生产环境可能会面临比44%更高的幻觉率。

现在谜团出现了。OpenAI推出了SimpleQA,以展示o1比GPT-4o幻觉少。正如表格所示,GPT-4o的幻觉率为61%,而GPT-4o-mini的幻觉率为90%。是的,10个回答中有9个是错误的。

等等!难道GPT-4o不是在GPT-4之后发布的吗?是的,确实是。OpenAI不是因为GPT-4o的发布而将GPT-4降级为遗留模型的吗?是的,确实是。那么,为什么要降级GPT-4,给一个大多数时间回答错误的模型腾出空间?而且,为什么OpenAI要等这么久才承认GPT-4o在回答简单问题时有61%的幻觉率?

而且,还有一个更大的谜团:为什么OpenAI没有在o3-mini的系统卡片中包含SimpleQA?答案将会让你吃惊。

OpenAI是否在自己的基准测试上测试了o3-mini?是的,正如下文所示。然而,o3-mini在SimpleQA基准测试中的准确率竟然低得可怕,只有13.4%!

因此,OpenAI自己的内部测试记录了13.4%的准确率,而几乎每篇关于o3的文章却都声称它的准确率是神话般的99.2%。

你有没有注意到上面只显示了“准确率”?我没有找到o3-mini在SimpleQA上的“幻觉率”。这本身就很有意思。

快速下滑

数据科学家和记者需要停止在事实性问答幻觉问题上对公众进行洗脑。OpenAI在追求数学和科学推理的过程中,把事实性问答抛到一边(如上表所示)。

OpenAI创建了SimpleQA,目的是取代其他基准测试,因为它被认为是评估简单事实性问答的可靠指标。OpenAI最新模型在这个特定基准测试上惨败的事实应该大声疾呼(而不是神话般的0.8%数字)。

引用Vectara基准的荒谬

0.8%的数字来自一个非常误导、非常可疑的基准测试,这是Vectara创建并维护的。问题之一是,实际上用于这个指标的软件由于自身的误差,已经被Vectara放弃。其次,这个基准测试是针对摘要生成的,而不是问答的。它根本不能提供任何关于LLM在回答问题时准确性的洞察,因为这个基准测试根本不测量这个。下面列出了其他一些可疑问题。

但你不必相信我的话。OpenAI自己的内部测试展示了Vectara基准的荒谬:

• Vectara: 99.2%的准确率

• OpenAI: 13.4%的准确率

这差距说明Vectara的成绩单是完全荒谬的。

记者和数据科学家需要将极具误导性的Vectara成绩单列入黑名单,最终开始分享事实。

你们正在伤害AI行业。在公司设立了期望99.2%准确率的聊天机器人,结果却发现机器人有超过8成问题回答错误时,这带来了现实世界的伤害。公司通常会责怪他们的开发人员。这是错误的。继续洗脑有真实的人类后果。已经拖得太久,应该停止了。

OpenAI两年内未在幻觉问题上取得进展

OpenAI在2023年3月发布了GPT-4——几乎是两年前的事。从那以后,每个模型在基于文本的问答方面的幻觉率都比GPT-4高。

OpenAI未能取得任何进展(实际上是倒退),说明他们已经达到了幻觉的天花板。他们已经卡在这里两年了,而且很可能会在接下来的很多年里继续困在这里。

现实问题与现实解决方案

LLM在问答聊天机器人中的幻觉问题是一个非常真实的问题——尽管存在神话般的Vectara数字。然而,针对这个非常真实的问题,确实有非常现实的解决方案。这是好消息。

posted @   果冻人工智能  阅读(23)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· spring官宣接入deepseek,真的太香了~
点击右上角即可分享
微信分享提示