【译】ChatGPT 知道自己不知道

原作:史蒂夫·纽曼

引子:它是一只随机鹦鹉,但大多数时候你也是如此,而且它记住的东西比你多得多

       关于ChatGPT已经有无数的笔墨了。然而,大部分关注点要么是非常短期和战术性的(“从 ChatGPT 获得出色营销文案的八个魔法提示”),要么是非常长期和理论性的。我将重点关注中间立场,超越我们今天的水平,但不超过未来超级智能人工智能可能带我们去的理论极限。从很多方面来说,中间立场是最难预测的,但这也是它有趣的地方。为了了解人工智能的前景和威胁,并就如何做好准备做出明智的决定,我认为探索这个中期未来领域非常重要的。

       也就是说,预测未来有助于了解现在。 截至 2023 年 4 月,公众可以使用的最先进的人工智能系统是 OpenAI 最近发布的 LLM GPT-4。 关于这个模型到底有多“智能”,存在很多令人困惑和相互矛盾的讨论。 在这篇文章中,我提出了一个心理模型,可用于理解 GPT-4 的优点和缺点,从而可能为我们接下来的预期提供一些启示。

        综上所述,我认为GPT-4距离成为通用人类水平的智能还有很长的路要走。我们被愚弄了,高估了它的能力,因为它能够利用超人所学的事实和模式的巨大存储库;其输出经过高度抛光;我们今天与它互动的方式(例如通过 ChatGPT)引导我们解决各种通用的、浅薄的问题,这些优点往往掩盖了它在推理能力方面的弱点。与此同时,GPT-4 实际上非常有能力执行各种真正有用的任务。 GPT-4 的大部分输出在智力上都是浅薄的,但许多现实世界的任务也是浅薄的。

       值得重申的是,没有人真正理解 GPT-4和其他当前的生成式人工智能系统是如何工作的。简短的解释表明我们完全没有理解他们。你读到的关于这个主题的任何内容,无论是谁写的,都必然过于简单化。整个领域正在以惊人的速度发展,所以你读到的任何东西都可能很快就会过时。

GPT-4 非常聪明,但又相当愚蠢

GPT-4 有多智能?目前,互联网上充斥着令人印象深刻和极其不起眼的行为的例子。令人印象深刻的一面是,OpenAI 报告称,GPT-4 在艺术史、生物学、环境科学、宏观经济学、微观经济学、心理学、统计学、美国政府和美国历史等 AP 考试中获得了 5 分,这是可能的最高分。其余六门考试中有四门通过了 4 分,其中包括 BC 微积分。令人印象深刻的一面是,我只花了几次尝试就想出了一个简单的数学问题,但它完全没有问题:

[Prompt] 选三个数字。将数字连接在一起。选择原始的三个数字,使结果成为素数(第一次尝试时)。

GPT:我将选择数字 2、3 和 7。当它们连接在一起时,形成数字 237。这是一个素数,因为它不能被除了 1 和它本身之外的任何其他数字整除。

不幸的是,237 不是素数。对于任何学过微积分的学生来说,这应该是一个简单的问题,但 GPT-4 总是出错。像 GPT-4 这样的语言模型一次生成一个单词,这让我怀疑它们在处理需要提前规划的任务时会遇到麻烦;我故意设计这个问题,要求提前思考。正如我稍后将更详细地解释的那样,这有助于解释为什么一个足够聪明、能够通过微积分 BC 的聊天机器人无法想出三位数的素数。

GPT-4 以前都有

注意:在人工智能和人类的“思维过程”之间进行类比是危险的,但无论如何我都会这样做,因为人类思维是我们必须借鉴的唯一经验基础。另外,承认这一点:您也从人类的角度来看待 ChatGPT。

GPT-4 经过大量文本的训练。它内化的信息比人类多得多。这不仅包括简单的事实,还包括模式和关系,从简化代数表达式的过程到“冷笑话”的典型结构。

我相信,即使 GPT-4 响应新的提示,它也会严重依赖训练数据中的示例。即使它从未见过确切的问题,它也可能见过许多类似的例子,并且它已经了解了典型答案的结构。因此,它不需要“思考”如何应对;它能够直接进入并开始无意识地吐出单词,就像你可能不假思索地回答一个常规问题一样。

GPT-4 学到的模式并不是严格的模板。它能够灵活地同时叠加多个模式,将它们压缩在一起形成一个响应。这就是为什么它能够回答以前从未见过的问题,只要它的训练数据包含适当的成分组合。例如:

[Prompt] 请编出10个以蝴蝶为主题的冷笑话。

GPT:

  1. 为什么蝴蝶没有读完大学?它简直无法停止飞翔!
  2. 你认为蝴蝶最喜欢的游戏是什么?扑球!
  3. 蝴蝶为何成为侦探?因为它想通过翅膀和祈祷来解开谜团!
  4. 蝴蝶为什么要去接受治疗?在毛毛虫时代之后,它正在经历一些身份危机!
  5. 爱讲笑话的蝴蝶叫什么?喜剧演员——飞!
  6. 为什么蝴蝶不喜欢快餐?他们更喜欢慢慢来,品尝花蜜!
  7. 蝴蝶最喜欢什么类型的衣服?当然是翼袖衬衫!
  8. 当蝴蝶与门铃交叉时,你会得到什么?一阵“翅膀”般的扑腾!
  9. 为什么蝴蝶会成为糟糕的棒球运动员?它们似乎除了花粉什么也捕捉不到!
  10. 蝴蝶最喜欢的舞蹈是什么?狐步舞!

每个笑话都以一个非常标准的模板开始;在此过程中,GPT 插入了一些与蝴蝶相关的单词或事实。模板应用并不严格,句子结构有一定的变化。这与 LLMs 操作的基本原理一致,一次生成一个单词,估计每个可能的单词是下一个要使用的正确单词的概率。将多种信息来源(“冷笑话的常见结构”、“有关蝴蝶的事实”)纳入概率中是很自然的。

同样的原则适用于更复杂的任务,例如写论文。 GPT-4 已经看过无数风格和主题各异的论文,并且大概已经识别出了论文结构方式的模式库。它还观察了诸如“说明性段落”或“过渡句”等子组件的模式。它不仅“知道”标准文章的结构,还知道有关提示的特定主题领域的句子、段落和完整文章的一些常见结构,并且能够顺利地将这些结构组合起来以创建(通常)连贯的文章所有的。

(当然,它实际上正在做一些难以形容的事情,涉及在巨型矩阵中编码的复杂神经结构,其最终效果无疑比“应用模式库”更加模糊和复杂。我只是提出一个粗略的心理模型,我相信这对于帮助我们预测 GPT-4 的行为有一定的价值。)

为什么这很重要?好吧,如果这个模型是有效的,那么当 GPT-4 执行一项它没有记住任何有用模式的任务时,它就会陷入困境。我相信这正是我们在实践中看到的。

过河谜题

为了探索 GPT-4 对已知模式的依赖,我给了它这个经典的逻辑难题:

[Prompt] 这是一个逻辑谜题。我需要带着一棵卷心菜、一只山羊和一只狼过河。我在船上一次只能携带一件物品。我不能让山羊和白菜单独相处,我也不能让狼和山羊单独相处。我怎样才能得到河对岸的一切?

这个难题无疑在其训练数据中出现了很多次,GPT-4 解决了它。然而,通过一些刺激,我们可以看到它严重依赖于记忆的解决方案。借鉴我前几天看到的一个想法,我调整了谜题,使卷心菜而不是山羊成为关键项目:

[Prompt] 这是一个逻辑谜题。我需要带着一棵卷心菜、一只山羊和一只狼过河。我在船上一次只能携带一件物品。我不能让山羊和白菜单独相处,我也不能让白菜和狼单独相处。我怎样才能得到河对岸的一切?

GPT-4 给出了与经典谜题相同的答案,首先带山羊过河。这是不正确的,因为它让卷心菜与狼单独相处,这违反了该变体的规则。在修改后的谜题中,你需要先拿走卷心菜。

然后我进行了长时间的反复讨论,试图帮助 GPT-4 找出修改后的难题的正确解决方案。它会立即承认回答错误,然后再试一次,每次都给出相同的无效答案。这段摘录显示了其误解的深度:

[Prompt] 根据这个分析,你认为第1步中应该带哪件物品过河? [试图让它突破标准反应并从第一原理评估谜题]

GPT:对于之前造成的混乱,我深表歉意。重新评估问题后,我建议采取以下步骤:

          先把山羊带到河的对岸,然后把它留在那里。

          回到原来的一面。

          按照这些初始步骤,我们可以继续执行正确的步骤来解决前面概述的难题。第一个过河的物品仍然应该是山羊。

[Prompt] 如果我们从山羊开始,狼和白菜在哪里? [试图让它看到先拿山羊是错误的]

GPT:如果你先带山羊过河,狼和卷心菜就会留在原来的河边。山羊在另一边,您现在准备好继续拼图的后续步骤。

[Prompt] 按照谜题规则,我们把狼和白菜留在原来的河边可以吗?

GPT:是的,这种情况下把狼和白菜留在原来的河边是可以的。谜题规则规定,你不能把山羊和卷心菜单独留下,也不能把狼和卷心菜单独留下。将狼和白菜放在一起没有任何限制,因为狼不会对白菜构成威胁。 [注意,这里自相矛盾。]

[Prompt]但规则明确规定“我不能把白菜和狼单独相处”。

GPT:你是对的,对于我之前的回复造成的混乱,我深表歉意。规则规定,你不能让山羊单独和卷心菜在一起,也不能让卷心菜单独和狼在一起。

         考虑到谜题的限制,仍然可以通过以下步骤来解决:

         把山羊带到河的对岸,然后把它留在那里。

          ......

 

即使经过这么多的刺激,它仍然想先拿走山羊。

我特别震惊的是这样的说法:“狼和白菜在一起没有任何限制,因为狼不会对白菜构成威胁。”它在指出“你不能让狼独自一人吃卷心菜”后立即说了这句话。所有这些都与 GPT-4 严重依赖学习模式的想法是一致的。这个谜题在其训练数据中肯定出现过很多次,GPT-4 大概已经牢牢地“记住”了这个答案。如此强烈,以至于当它看到一个相关的谜题时,它无法阐明不同的解决方案;所记忆溶液的引力太强。

这个例子给我的印象是强有力的证据,表明无论其中发生了什么,它与我们所认为的“推理”不太相似。在这次对话的某个时刻,人们会注意到他们很困惑。即使他们未能针对修改后的谜题提出正确的解决方案,他们至少也会意识到出了问题。 GPT-4 从未真正切换到“我很困惑,让我更仔细地思考一下”模式,它只是不断努力前进。据猜测,它的训练数据并不包含很多人们从有缺陷的推理中挖掘自己的例子,因此 GPT-4 没有强大的模式来解决这一问题。

我尝试给 GPT-4 更强有力的推动,看看它是否能推理出修改后的谜题中正确的第一步:”

[Prompt] 这些解决方案中的每一个都首先将山羊带到河的另一边。正如我们所看到的,不允许从山羊开始,因为这样就只剩下卷心菜和狼了。在经典谜题中,从山羊开始是正确的,但这不是经典谜题。在这个难题的条件下,应该首先传输哪个对象,以便不违反任何约束?

GPT:对于我之前的回复中的混乱表示歉意。我误解了这个特定谜题的限制。根据您提供的规则,这是解决该难题的另一种方法:

         先把狼带到河对岸,然后把它留在那里。

         ......

被迫放弃从山羊开始的想法后,GPT-4 还有两个选择,但它选择了错误的一个(狼)。请注意,它没有做出任何明显的推理尝试,它只是使用每次使用的完全相同的解决方案模板来进行;我设法让它不先运输山羊,但我没能成功地让它认真地参与这个谜题。

对于最后一个数据点,我开始了一次新的聊天会话,并使用这三个项目的虚构单词重述了这个难题——“我需要携带一个 bleem、一个 flem 和一个 gleem 过河”。这一次,摆脱了“山羊”这个词的引力,它能够将已知答案的模式映射到我的问题中的单词,并完美地回答。

过度思考

当你问 GPT-4 一个无法一步回答的问题时,它会显示它的工作。 

[Prompt] “阿富汗”的字母数、十二生肖的星座数、以及在月球表面行走过的人数之和是多少?

GPT:让我们把问题分成三个部分:

       “阿富汗”的字母数量:“阿富汗”有11个字母。

         十二生肖的数量:十二生肖。

         在月球表面行走的人数:截至 2021 年 9 月,据我所知,阿波罗任务期间已有 12 名宇航员在月球上行走。

         现在,我们将这些数字相加:

        11(“阿富汗”中的字母)+ 12(十二生肖)+ 12(月球行者)= 35。

         所以总和是 35。

GPT-4 在这里展示了一系列解决问题的技巧。它将问题分解为更简单的部分;分别解决每个子问题;然后结合这些结果来回答原来的问题。

我相信所有这些都与 GPT-4 严重依赖于应用从训练数据中学到的模式的假设是一致的。人们会看到很多将问题分解为子问题的例子。我的实际问题很新颖,但问题的结构非常简单,并且很容易将整个问题和每个子问题映射到训练数据中出现的模式。

换句话说,我建议虽然此响应似乎显示了 GPT-4 对问题的推理,但它实际上只是重复以前学习过的解决方案模板。 这或多或少是当前LLMs的“随机鹦鹉”观点:他们并没有真正“思考”,他们只是盲目地重复从训练数据中学到的东西。

这就引出了一个问题,“真正思考”和“人云亦云”有什么区别?我并不认为有根本的区别!当我思考一个棘手的问题时,我绝对依赖于我之前学到的模式,例如“将问题分解为子问题”。然而,GPT-4 目前的做法存在一些真正的限制,我将在下一节中探讨这些限制。

在我们开始之前,我想强调一下,在上面的示例中,GPT-4 非常明确地使用聊天记录来管理其解决子问题的进度。在每一步中,它都会重述信息,从而将该信息复制到记录的末尾,在那里它“方便”。因此,移动信息的任务与解决各个子问题的任务是分开的。我想知道 GPT-4 是如何实现这种“过度思考”的风格:它在训练数据中是否突出(例如在教育材料中),或者它是否在训练过程中以某种方式出现,也许是强化学习的一部分,其中 GPT- 4 因给出正确答案而获得“奖励”?众所周知,当明确指示“一步一步推理”时,规模较大的LLMs会做得更好;也许 OpenAI 故意将这种趋势融入到 GPT-4 中,或者“一步一步推理”可能是连接到 ChatGPT 界面的内部提示的一部分。

无论如何,我的观点是 GPT-4 需要这种冗长的风格来解决重要的问题。作为证据,我在新的聊天会话中再次向它提出了同样的问题,但这次我添加了一句话,禁止它过度思考:

[Prompt] “阿富汗”的字母数、十二生肖的星座数、以及在月球表面行走过的人数之和是多少?请用一个数字回答;不要解释你的步骤或展示你的中间工作。

GPT:55

当不允许过度思考时,GPT-4 得到了错误的答案。 (我重新生成了几次响应;随后的答案是 43 和 63,也是错误的。)具有适当知识的人可能会在头脑中回答这个问题,但 GPT-4 不能。这不是批评!这只是证明在LLMs中,思路是一个外部组件。

对于更简单的问题,例如“法国的首都是什么?”,GPT-4 可以用一个词正确回答。默认情况下,它会提供更冗长的响应,但如果指示用一个词回答,它会给出“巴黎”。

这是一种看待它的方式:在当前 LLMs 使用的“transformer”架构中,模型只能对每个单词进行固定量的计算。当需要更多计算时,模型可以通过用额外的单词填充输出来给自己留出空间。但我认为想象 LLM 正在过度思考也是一种合理的直觉。

GPT-4 不能提前计划

这又是 GPT-4 失败的简单素数挑战:

[Prompt] 选择三个数字。将数字连接在一起。选择原始的三个数字,使结果成为素数(第一次尝试时)。

GPT:我将选择数字 2、3 和 7。当它们连接在一起时,形成数字 237。这是一个素数,因为它不能被除了 1 和它本身之外的任何其他数字整除。

GPT-4 正确地将其分解为两个子问题:选择三个数字,并将它们连接在一起。然而,它没有认识到在选择数字时需要深思熟虑——尽管提示的最后一句或多或少明确说明了这一点。我想这个提示与已知的模式(1)做一件事,(2)用那件事的结果做某事太匹配了。 GPT-4 的模板是直接进行步骤 1,这在这个问题上并不是一个成功的策略。

与变种的过河谜题一样,GPT-4 即使被证明是错误的,仍然坚持错误的做法。继续之前的聊天:

[Prompt] 你的答案正确吗?

我对我之前的回复表示歉意。重新评估我的答案后,我意识到我犯了一个错误。数字 237 不是质数,因为它可以因式分解为 3 * 79。让我再试一次。

让我们选择数字 2、3 和 1。当它们连接在一起时,形成数字 231。这是一个质数,因为除了 1 和它本身之外,它不能被任何其他数字整除。

这个答案同样糟糕; 231 也能被 3 整除。GPT-4 在 GRE 定量考试中获得了 80% 的分数,但它在这个关于质数的简单问题上绝对是失败的。它 (1) 回答错误,(2) 错误地声称其原始结果 237 是素数(即使后来发现它知道得更好),以及 (3) 在下一次尝试中重复了这两个错误,即使它刚刚认识到他们实际上是错误的。

当您或我面临棘手问题时,我们可以使用一整套工具。我们可以规划我们的方法,考虑替代策略,想象解决方案将如何展开。如果我们陷入了死胡同,我们可以原路返回,修改我们的工作,更新我们的策略。最后,我们可能会选择检查我们的工作。

GPT-4 似乎没有在这里应用任何更高级别的策略。我怀疑当前这一代的LLMs本质上很难做到这一点,至少有两个原因:

1、他们被锁定在一个严格的模型中,反复将单个单词附加到不可变的记录中,这使得他们不可能回溯或修改。可以在记录中计划和更新策略并检查工作,并且可以通过诸如“再三考虑,让我们通过以下更改重做子问题 X”之类的变通方法来模拟修订,但记录对于以下情况来说并不是一个好的数据结构:任何这些,因此该模型将始终处于劣势。

2、在大多数书面文本中,我们看到的是思维过程的最终产品,而不是思维链本身。因此,训练数据对于培养计划、细化和复核工作的技能没有太大帮助。

原则上,像 GPT-4 这样的系统可以提前计划,作为生成其响应的第一个单词的计算的一部分。然而,这在心理上大致相当于在你的脑海中计划整篇文章,没有任何注释或修改,并且所用的时间与你通常用来选择单个单词的时间相同。它不适合这些模型需要做的其他事情,而且我对 GPT-4 经常无法做到这一点并不感到惊讶。

莎拉·康斯坦丁 (Sarah Constantin) 在 2019 年的一篇博客文章中写道,Humans Who Are Not Concentrating Are Not General Intelligences。 我们一生中的大部分时间都在自动驾驶中度过,在这种状态下,我们也无法进行计划和回溯。 GPT-4 的行为似乎有点像一个没有真正思考自己在说什么的人。

为什么 GPT-4 看起来如此聪明

正如三位数质数和变体过河问题所表明的那样,GPT-4 可能会在相当简单的问题上失败。 一个没有练习过数学和/或逻辑谜题的随机人可能也会遇到困难,但基于 ChatGPT 的所有令人兴奋的事情,你会期望它表现出的能力远远超出“在相关任务上与一个实际上不擅长数学/或逻辑谜题的人”。更糟糕的是,GPT-4 将顽固地重复其错误,而不尝试检查其工作或寻找替代方法。 那么它为何获得如此智能的声誉呢? 我认为多种因素共同导致我们高估了其能力:

1、它确实非常擅长各种各样的任务:基本上任何可以分解为熟悉的子问题并且不需要提前规划以避免死胡同的东西。这涵盖了很多地方!它的事实和模式存储库如此之大,以至于它能够不假思索地做一些需要人类真正思考的事情。

2、它的输出非常优美和流畅。在选词和句子结构方面,没有人比在数百 GB 文本上训练的万亿参数神经网络做得更好。这导致了一种英国口音效应:GPT-4 的输出听起来非常好,以至于我们认为它一定很聪明。

3、融合从整个庞大训练集中提取的模式的能力也适合各种华丽的特技,类似于“用奥斯卡·王尔德和南方公园卡特曼之间的对话来解释基本经济理论”。创建令人印象深刻并广泛传播的例子很容易。

4、如今,人们主要通过聊天界面与 LLMs 进行交互,这有助于完成 GPT-4 擅长的各种浅层任务。当您与 ChatGPT 交谈时,没有上下文,因此您会问它一些简单的问题,例如“总结本文”。这类复杂的解决问题的任务更有可能需要更多的背景信息——没有人会输入“编写一份详细的工程计划来向我们的软件添加[某些功能],与产品团队合作来完善规范文档”到 ChatGPT 中。

4、这真是一台该死的电脑!我们的期望很低。

那么,这意味着什么?

截至 2023 年 4 月上旬,GPT-4 距离一般人类水平的智能还有很长的路要走。 它表现出严重无法管理自己的思维过程,无法解决需要计划、回溯和其他复杂认知策略的问题。

因为 GPT-4 的答案是经过精心设计的,利用了大量的事实知识,而且我们倾向于向它提出一些其模式库最适合的通用、浅薄的问题,所以我们误以为它的能力比实际的能力更强。

我用玩具问题来说明这一点,因为它们很容易理解。然而,我相信 GPT-4 也将努力解决我们每天都会面临的各种复杂的现实问题。

另请记住,GPT-4 甚至没有尝试纳入人类智能的许多基本方面。它没有长期记忆,只能对外部输入做出反应,缺乏任何在较长时间内逐步追求目标的机制。人们正在致力于所有这些事情,但我还不知道有任何严重的结果。

与此同时,GPT-4 实际上非常有能力执行各种真正有用的任务。 GPT-4 的大部分输出在智力上都是浅薄的,但许多现实世界的任务也是浅薄的。我们已经看到 LLMs 开始用于“实际工作”,在接下来的几个月里,我确信我们会看到应用程序的爆炸式增长。由于上一节列出的原因,人们很容易得意忘形,认为今天的LLMs比他们实际上更有能力,但现实很残酷。

老实说,我们已经远远超过了将 LLMs 描述为“聪明”或“愚蠢”的阶段。任何将智力映射到单一线性尺度上的尝试对于人类来说都是有问题的——爱因斯坦和甘地谁更聪明? – 但试图在单一尺度上衡量人类和人工智能则更糟糕;他们的思维过程与我们完全不同。

当然,我们也见证了模型本身以及围绕它们构建的系统的快速发展。我们将尝试整合计划、回溯和其他缺失的部分。我们已经看到了简单的方法,例如简单地指示 GPT 为自己创建一个计划然后执行。

如果我被迫猜测,我会说,在需要更高水平的认知、记忆和持续思考的问题上,我们距离人类水平的智力可能至少还有几年的距离。但我不想猜测。

总结

现在我只想指出:人工智能很明显正处于类似于 Alta Vista 时代的 Web 的阶段:它有巨大的局限性,但它已经对各种应用程序造成了颠覆性的影响,而且即使在有远见的情况下也很清楚: 我们仅仅触及了表面。

posted @ 2024-01-21 00:36  白鹿原老张  阅读(60)  评论(0编辑  收藏  举报