【译】生成式AI就像一把锤子,没有人知道什么是钉子,什么不是钉子
原作:科林·弗雷泽
引言:如果您相信 ChatGPT 正走向通用工具之路,那只是以一种狂热的信仰。
/Gemini翻译/
“锤子”比喻可能会显得有些牵强,但对于计算机专业人士再熟悉不过。设想一个没有锤子的世界。你只能用手来敲打钉子,将画挂在墙上。你必须用脚踢击石膏板以拆除墙壁。为了防止帐篷被风吹走,你只能用绳子将帐篷系在岩石上。
现在设想一下,这个世界有着悠久的科学研究历史,其中许多都非常有前景甚至具有革命性,同时还有以人工劳动(AL)为核心的推理科幻小说和未来主义传统。在也许并不遥远的未来的一天,人们预计 AL 将会为你钉钉子、拆除你的墙壁和固定你的帐篷。但这并不是AL将要做的全部。在未来,所谓的人工通用劳动(AGL)将洗碗、洗衣服、遛狗、接孩子放学,以及完成你能想象到的所有烦人的繁重任务。AGL 将让你摆脱苦役生活,让你和其他人类在《机器人总动员》式的后劳动乌托邦中存在。
然后一家名为 OpenAL 的公司,其既定使命是实现 WALL-E 场景,发明了锤子。(好吧,实际上是竞争对手发明了锤子,但 OpenAL 制造了一款非常好的锤子并将其推向市场。)突然之间,比以往任何时候都更快、更有效地钉钉子成为可能。大量科学研究表明,使用足够大的锤子,你可以比最快的建筑工人更快地拆除一面墙。数千家 AL 先进技术公司凭空出现,使用从 OpenAL 获得许可的最新 AL 工具来完成诸如使用帐篷桩固定帐篷之类的任务。独立的黑客想办法利用家里的材料制造自己的锤子,并免费在线发布说明,从而迎来了 AL 开源的黄金时代。
对于很多人来说,这显然标志着以 WALL-E 场景结束的过程的早期阶段。OpenAL 的网站称,他们的全部目的是实现 AGL。他们引入了这项革命性的新 AL 技术,该技术正在各个领域迅速找到应用,并且真正改变了多种形式的劳动方式。长期以来一直猜测人工智能劳动危险性的互联网人士开始显得极其有理,并且正在新闻中要求立即停止 AL 的进一步发展,以免为时已晚。
但等一下。在 WALL-E 的场景中,AL 正在洗碗。锤子能洗碗吗?这看起来不太可能,但这里的技术变革速度令人难以置信地快,你不想看起来像个白痴。仅仅几个月后,OpenAL 发布了 Hammer4,你了解到考古学家现在正在使用新的 AL 锤子挖掘化石——谁能想到呢?非常聪明的专家经常做出承诺,即使 Hammer4 今天不能洗碗,Hammer5 出来也只是时间问题,它肯定会有更多功能。顺便说一下,建造 Hammer5 大约需要 7 万亿美元,但如果这带来了 WALL-E 的场景,许多人认为,这将是花得很好的 7 万亿美元。
你可能已经了解到这一点,但我认为 ChatGPT 的发布有点像寓言中锤子的发布。像 ChatGPT、Stable Diffusion、Sora 等巨大的生成式 AI 模型是 AI 技术的一个新的令人惊讶的子类别,具有广泛且快速扩展的潜在用途。ChatGPT 在某些方面表现出色,是我从未期望基于LLM的程序能够做好的,比如编写某些类型的计算机程序、总结和编辑文本以及许多其他事情。
但有些事情 ChatGPT 似乎做得并不好。例如,它不擅长玩即使非常简单的策略游戏。
。
对我来说,这项技术的根本奥秘在于:为什么 ChatGPT 在求和为 22 的游戏中表现不佳?是因为 ChatGPT 仍是一项尚未完全成熟的新兴技术吗?也许只是我的提示不正确,或者 GPT-4 的参数还不够,或者它尚未见过足够的训练数据。或者,是因为求和为 22 的游戏根本不是LLM驱动的聊天机器人擅长的类型?如果 ChatGPT 是锤子,那么求和为 22 是否就像开裂混凝土,只需要开发一个更大的锤子?还是像洗碗,锤子根本就是不适合这项工作的工具?
非常明确地说,计算机程序并非不可能以最佳方式玩这个游戏。这是一个简单的 Python 程序,如果对手没有完美发挥,它将 100% 赢得这场比赛。
def choose_number(current_sum):
return (6 - current_sum) % 8 or 1
def play_game(first_turn = 'human'):
current_sum = 0
my_turn = first_turn == 'computer'
while current_sum < 22:
move = choose_number(current_sum) if my_turn else int(input("Input your move: "))
current_sum += move
print(f"{'I' if my_turn else 'You'} chose {move} bringing the total to {current_sum}.")
my_turn = not my_turn
if my_turn:
print("You win")
else:
print("I win")
play_game()
以下是与该程序对弈的情况。
所以说,电脑并非无法赢得此类游戏;事实上,传统上,电脑擅长这类游戏。只是 ChatGPT 似乎不擅长此类游戏,问题在于它是否最终能够通过进一步完善解决此问题,或者它只是 ChatGPT 锤子的一个非典型钉子。顺便说一下,我之所以关注求和为 22 的游戏,并不是因为它特别重要。如果 ChatGPT 能够完成世界上除求和为 22 的游戏之外的所有事情,那将非常不错。但这似乎不太可能。相反,求和为 22 的游戏似乎代表了 ChatGPT 不擅长的这类问题。弄清楚该类别中到底包含什么和不包含什么,目前是一个价值万亿美元的问题,但稍后我会再谈。
在经常谈论此类事物的人当中,关于人工智能发展轨迹的最常见观点是,如果人工智能在某些方面表现不佳,比如 22 点游戏,那么它肯定很快就能做好这件事。人工智能解决这个问题和其他所有问题只是时间问题;像 OpenAI 这样的公司只需要更多的时间和金钱来训练更智能的人工智能。我认为这可能无法准确反映事物的当前状态,我有一些理由支持我的想法。
没有一种东西叫做“AI”
关于AI能做什么和不能做什么的问题变得非常具有挑战性,因为我在许多评论家中观察到了一种令人沮丧的趋势,模糊了AI技术层次之间的界限。人工智能,就像寓言中的人工劳动一样,是一个庞大而模糊的技术类别,其中包括从国际象棋引擎到搜索引擎、面部识别软件、波士顿动力机器狗,再到电影《她》中的操作系统。需要智力的任务集,就像需要劳动的任务集一样,是庞大而多方面的。与人工智能一样,人工智能类别中包含的技术都有其能做和不能做的事情。你不能用电钻洗碗,也不能用 Stockfish 国际象棋引擎开车。
人工智能过于宽泛且模糊,无法清晰地分解为适当的层次结构,但有几种方法可以对其施加混乱的顺序。在最广泛的层面上,符号人工智能和机器学习之间可能存在区别(尽管有些东西你可能称之为“人工智能”,但实际上并不属于任何一类,比如 Google PageRank 算法或 GPS 用于确定点对点方向的算法)。在机器学习下,你可能有一些子类别,如分类器或推荐器,其中一个子类别可能是生成式人工智能。此类别下的一个类别可能是LLM生成系统,ChatGPT 就是一个例子。这不是组织所有这些内容的唯一方法,甚至不一定是最好的方法,但我想表达的观点是,ChatGPT 只是浩瀚技术宇宙中的一个小点,有点类似于锤子是通用工具类别中的一个例子,还有螺丝刀、洗碗机、汽车、望远镜和物质复制器。
通常,关于新技术的报道会将这个庞大的类别归结为一个单一的无定形实体,将各个元素的任何属性都归因于人工智能。例如,看看 DeepMind 最近发表的一篇关于他们为解决几何问题而构建的系统 AlphaGeometry 的论文的报道。
- 纽约时报:人工智能的最新挑战:数学奥林匹克竞赛
- TechCrunch:DeepMind 的最新 AI 可以解决几何问题
- 自然:这个 AI 刚刚弄懂几何——这是朝着人工智能推理迈出的一步吗?
- 科学美国人:人工智能匹配最优秀的数学奥林匹克选手的能力
这不是 DeepMind 在数学人工智能主题上取得的唯一重大进展。大约一个月前,他们发表了另一篇论文,介绍了他们构建的一个名为 FunSearch 的系统。以下是报道此事的文章的一些标题。
- Nature:DeepMind的AI 在未解之题上胜过人类数学家
- 下一个网络:DeepMind的人工智能找到了几十年来的数学难题新解法——超越人类智能
- 未来主义:DeepMind 表示其人工智能解决了人类一直困惑的数学问题
- 新科学家:内置事实检查器的 DeepMind AI 做出了数学发现
一个非专业的观察者可能会合理地认为,DeepMind的科学家们掌握了一种被称为"AI"的东西,这个"AI"可以做所有这些事情。也许DeepMind的这种"AI"与ChatGPT本质上是相同类型的实体,ChatGPT 也将自己介绍为“人工智能”。
所有这些都真的让它看起来像“一个人工智能”是一个离散的事物,它管理着聊天机器人,解决未解决的数学问题,并在几何奥林匹克竞赛中击败高中生。但这根本不是这种情况。FunSearch、AlphaGeometry 和 ChatGPT 是三种完全不同的技术,它们执行三种完全不同的任务,并且根本不可互换甚至不可互操作。你无法与 AlphaGeometry 交谈,而 ChatGPT 无法解决几何奥林匹克竞赛问题。
大型语言模型已在各种推理任务中展示出卓越的推理能力。然而,在 [这些几何问题] 上生成完整的自然语言证明时,GPT-4 的成功率为 0%,其输出中经常出现句法和语义错误,表明对几何知识和问题陈述本身的理解甚少。(Trinh, T.H., Wu, Y., Le, Q.V. 等人在没有人工演示的情况下解决奥林匹克几何问题。)
这三种技术有一个共同点,即它们都是使用LLMs构建的,更普遍地说,它们是这种称为生成式 AI 的爆炸性新范式的应用。这可能使它们看起来比实际情况更紧密地联系在一起。但它们是LLMs截然不同的应用。在开场寓言的世界里,这就像研究人员拿着大锤和反射锤出来,新闻媒体报道人工智能现在可以敲掉干墙并测试你的膝跳反射。
。
严格来说,这并不完全不正确,但它将非常不同的事物误导性地归为一个概念。是的,反射锤和重锤都是基于锤子的非自然劳动技术,但它们之间有足够的差异,以至于很重要。重要的是,对重锤的进一步发展并不意味着反射锤的有效性,反之亦然。而且,任何一项的进展都不意味着基于锤子的技术可以洗碗。AlphaGeometry 的发明同样并不意味着 ChatGPT 是否能够在 22 点游戏中击败我。它们都是基于 LLM 的技术,但它们之间的差异非常大,以至于任何一项都不能真正暗示另一项的能力。
在这里明确表述很重要,因为有很多不同的东西被归为“人工智能”,而它们都有着非常不同的属性。通过粗略地混合它们,描绘了一幅实际上并不存在的系统图,其中包含了任何事物都不具备的一系列功能。很明显,“人工智能”可以在 22 点游戏中获胜;例如,我在本文开头提供的那个。重要的问题是这种特定类型的人工智能系统是否可以做到这一点,而且,这个人工智能系统究竟能做什么和不能做什么。很明显,人工劳动可以洗碗(例如用洗碗机);相关问题是锤子是否可以。
通用文本生成器是通用锤子
我感觉一些阅读这篇文章的人会通过电脑屏幕向我大喊,说 ChatGPT 和锤子之间的比较是一个范畴错误。锤子只做一件事:基本上,它们敲击东西。任何可以通过敲击东西来完成的任务都将是锤子的一个候选任务,反之,任何不需要敲击东西的任务都不会。另一方面,ChatGPT 会生成文本。通过编写文本,你能做什么?绝对是你能想象到的任何事情!通过生成正确类型的文本,你可以解决数学问题、编程计算机、编写剧本、协商折扣、诊断患者,等等。列出无法通过编写文本来完成的事情可能更有效率。从这个角度来看,ChatGPT 是朝着通用人工智能迈出的一步,通用人工智能是一种可以以超人的效率绝对解决任何任务的人工智能形式。
但在这种观点的表面之下潜藏着一个非常强烈的假设,如果没有它,整个论点就会崩溃。这个假设是 ChatGPT 可以生成任何类型的文本,所有执行所有这些任务所需的文本都可以通过 ChatGPT 用于生成文本的特定程序生成。如果有一种特定类型的文本它似乎不擅长,那不是因为基于LLM的程序不适合生成那种类型的文本,而是因为我们还没有给 OpenAI 足够的钱来制作一个足够大的语言模型。
在直接解决这一论点之前,我只想指出如果它为真,那将是多么令人惊讶。许多计算机程序都可以生成文本,但不是任何类型的文本。我用来玩 22 点的小 Python 脚本会生成文本,但仅生成 22 点游戏的转录。Wu-Tang 名称生成器会生成文本,但仅生成 Wu-Tang 名称。用计算机生成文本的能力并不新鲜。但如果 ChatGPT 使用的文本生成算法可用于生成任何类型的文本,那么我们真的发明了这样一把锤子,世界上所有问题都是它的钉子。说得保守一点,那将是一件非常了不起的事情!难怪相信它的人会如此兴奋!难怪 Sam Altman 认为 OpenAI 需要 7 万亿美元!但这是一个非常巨大的主张,需要相当多的证据才能接受。
严格来说,这是微不足道的错误。例如,ChatGPT 无法输出 π 的前十亿个小数位。这根本不是其特定文本生成方法所适合的任务类型(粗略地说,这是因为没有办法存储十亿个看似随机的数字序列,而无需仅仅记住该序列,而 ChatGPT 不会记住任意长度的序列)。现在,ChatGPT 有可能生成一个计算机程序,该程序本身可以通过非LLM手段输出 π 的前十亿个小数位,我将很快解决这个问题,但现在这与我的观点无关。我的观点是,显然至少存在一项文本生成任务——即此任务——原则上不能期望像 ChatGPT 这样的系统能够完成,即使我们将地球的整个 GDP 都用于为其供电。对于 ChatGPT 的锤子来说,确实存在非钉子。
我认为这是显而易见的,但据我所见,这并不是科技界的主流观点(至少在公开场合)。主流观点是“规模就是你所需要的”,对于任何目前基于LLM的聊天机器人不擅长的任务,构建一个擅长该任务的东西所需要的只是更多的计算能力(即给 Sam Altman 更多的钱)。如果今天的锤子不能洗碗,我们所需要的只是一个更大的锤子。这种说法非常强硬,本质上认为我们已经发现了解决世界上所有问题的唯一奇怪技巧。它不仅强硬,而且也是错误的:至少有一项任务——输出 π 的小数位——这种系统在理论上都无法完成。
我预计有人可能会插话,说输出 π 的小数位不是一项特别有用的任务,我同意,但这并不是重点。重点是,如果这个锤子至少有一个非钉子,那么它就不是一把万能锤子,如果它不是一把万能锤子,那么它还有什么不能做的?哪些任务是钉子,哪些任务是盘子?我认为答案是没有人真正知道。目前还没有很多关于这方面的科学研究。已经有很多看似科学的出版物对语言模型在基准数据集上的表现进行了实证调查,发现哪些LLMs在各种测试和评估中得分高于其他哪些,但实际上并没有一个强有力的理论或原则集来明确区分LLM适当的任务和LLM不适当的任务。如果你特别看好这项技术,那么一个诱人的立场是,虽然它不能做打印 π 的小数位之类的无用事情,但它基本上可以做任何有用的事情。如果我们发明了一个文本生成器,它只在文本有用时才生成文本,那肯定很方便。 但我认为这个关于其能力的理论很快就会分崩离析,原因显而易见。我们需要一个更好的理论来解释它能做什么和不能做什么。
关于哪些任务不是钉子的粗略理论
输出一百万位圆周率小数位的问题在于,只有唯一一种正确的方法。一百万位小数位序列的数量难以想象,但其中只有唯一一个序列是圆周率的前一百万位小数位。我相信,这种特性(即有很多方法看似可以做到这一点(例如,输出一百万个随机数字),但实际上只有极少数方法可以做到这一点(输出一百万个正确数字))是生成式人工智能系统通常不擅长的东西的特征。ChatGPT 通过反复猜测来工作。在尝试生成圆周率小数位的任何给定点,有 10 个数字可供选择,其中只有一个是正确的。它连续猜对一百万次的概率微乎其微,小到我们不妨称之为零。因此,对于这种特定类型文本生成而言,此特定任务并不合适。
求和为 22 的游戏就是一个具有相同特征的任务示例。在游戏的任何给定点,都有七种可能的移动,但其中只有唯一一种是最佳的。要赢得游戏,它必须每次都选择唯一的最佳移动。我相信任务的这个属性,它需要在完全正确的顺序中准确地获得每个细节,与生成式 AI 范例不兼容,后者将文本生成建模为概率猜测游戏。
你可以将 ChatGPT 生成的每个单词都看作一个小赌注。为了生成其输出,ChatGPT 对接下来选择正确的标记进行一系列离散的赌注。对于每个赌注的风险相对较低的任务,它的表现要好得多。你给高中作文的总体分数不会取决于任何一个单词,因此,对于此任务的赌注序列中的任何一点,风险都很低。如果它碰巧在任何时候生成一个奇怪的单词,它很可能会这样做,它可以在以后恢复。没有一个次优的单词会毁掉这篇文章。对于大多数时间正确下注可以满足大多数时间标准的任务,ChatGPT 在大多数时间都会表现得很好。这与打印 π 的数字或以最佳方式玩求和为 22 的游戏的问题形成了鲜明的对比:在这些任务中,一个错误的赌注会毁掉整个输出,而 ChatGPT 在整个对话过程中肯定会做出一些糟糕的赌注。
在其他生成式人工智能系统中,我们也可以看到同样的模式,如果成功标准非常宽泛,系统似乎表现良好,但特异性的增加会导致失败。有很多方法可以生成一群大象在海滩上闲逛的图像。这些假设图像中只有一小部分恰好包含七头大象。因此,生成恰好七头大象是生成式人工智能系统将要面临的难题。
事实证明,这一点并没有随着规模的扩大而得到很大改善。如今,DALL-E 现在生成大象在海滩上的图像比两年前更好,但生成七只大象的图像并没有更好。这些模型在捕捉一般氛围方面变得越来越好,但我没有看到任何证据表明它们在坚持具体方面变得更好。
我不想在这里过分强调计数;计数只是我正在描述的任务类型的一个非常方便的例子,它对生成的具体内容非常敏感。但问题不在于模型不能计数,甚至不能进行数学运算本身。问题在于,对于具有足够具体标准的任务,模型无法寄希望于随机猜测来满足所有标准。
即使是 OpenAI 最新、最棒的文本转视频模型 Sora,似乎也表现出完全相同的模式。例如,以祖母的演示视频为例。
乍一看,这看起来非常像一个真正的祖母站在一个真正的蛋糕前,背景中还有真人,由一个真正的摄像机拍摄的真实视频,而这正是这个模型看起来擅长的:生成看起来可能是真实的视频。但看看生成视频的prompt。
一位梳着整齐灰发的祖母站在一张木制餐桌旁的一个色彩缤纷的生日蛋糕后面,蛋糕上插着许多蜡烛,表情是纯粹的喜悦和幸福,眼中闪烁着快乐的光芒。她向前倾,轻轻一吹吹灭了蜡烛,蛋糕上有粉红色的糖霜和洒粉,蜡烛停止闪烁,祖母穿着一件浅蓝色印有花卉图案的衬衫,可以看到几名快乐的朋友和家人坐在桌子旁庆祝,画面失焦。这个场景被完美地捕捉下来,具有电影感,展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了气氛
这个生成的内容与这个prompt的具体细节完全不符。她的朋友和家人坐在她身后,而不是桌子周围。这不是祖母的 3/4 视图;这是正面视图(你可能会争辩说视频以 3/4 视图开始,然后平移到肖像,但这提出了prompt没有要求任何平移的观点)。而且,到目前为止最重要的是,她没有吹灭蜡烛!prompt中描述的唯一真实动作最终没有在视频中描绘出来。
此外,如果你仔细观察视频,你会开始注意到一些其他奇怪的特征。为什么蜡烛的火焰都指向不同的方向?为什么其中一支蜡烛有两个火焰?蛋糕中间那个奇怪的蜡烛状树桩是什么?背景中的朋友和家人到底在做什么?认真地,选一个他们中的一个,看看他们在整个视频中做了什么。你越是看着这个东西,它看起来就越是完全奇怪。
我确实认为所有这些问题都是同一种现象的实例,这种现象使得 ChatGPT 无法玩 22 点游戏。描绘一位祖母在生日蛋糕前的可能视频集合很大,而祖母实际吹灭蜡烛的此类视频集合要小得多。她的朋友和家人与她围坐在桌子旁的此类视频集合更小,而蜡烛上的火焰都指向同一方向的此类视频集合甚至更小。视频背景中的人们可以移动其肢体的方式有很多;其中只有一小部分看起来不像是恶魔。仅通过概率猜测来生成同时满足所有这些条件的视频的概率实在太小了。生成式 AI 策略很擅长生成看起来总体上与训练数据中的示例相似的输出,而且越来越好,但它不擅长生成满足特定条件的输出,并且它必须满足的条件越多,它做得就越差。
我在这里对索拉有点偏见,但我真的相信这将严重限制其作为完成任何有价值事情的工具的实用性。在我讨论过的所有媒介中,视频生成具有这种内置的特殊性要求。要生成一个看起来不奇怪且令人不安的视频,您需要视频时空中的所有区域都遵守相同的物理定律。您需要视频中的所有人物都表现得不像恶魔。如果视频开始时场景中有三个人,并且没有人进入或离开场景,那么您需要在视频结束时场景中有三个人。每个角色的面部特征和身体特征在整个视频中都应保持相对恒定。视频的胜任生成固有地存在所有这些无数的特殊性,甚至在我们考虑prompt施加的附加特殊性之前。我只是真的不相信基本的生成式人工智能策略,它将生成媒体的问题表示为一个随机猜测游戏,实际上本质上非常适合这项特定任务。 我认为我们会看到一个热情的业余爱好者社区使用这些模型,也许该社区的一些成员会找到一些很酷的方法来使用这项技术来创建有趣的内容,但我认为我们不会看到很多支持者所期望的那种大规模采用。例如,没有人会使用 Sora 来生成他们过早取消的最喜欢的节目的一个季。我们会看到;我最终可能会看起来像个白痴。一年后再来找我。
回到文本,所有这一切的一个有趣的转折是 GPT 可以生成代码。一种推理是,就像人类一样,ChatGPT 有局限性,但可以通过允许它编写和运行任意计算机程序来克服这些局限性。没有人真正期望 ChatGPT 背诵 π 的小数位,但就像一个人一样,它可以编写一个 Python 脚本,很好地完成这项工作。
但这只不过是伪装的万能锤子理论。可能的计算机程序集很大,而对于 ChatGPT 来说,要使用计算机程序解决任何任意问题,它必须能够编写任何计算机程序。这与假设它可以生成任何任意文本并没有什么不同:如果存在它无法直接生成的文本,它可以编写代码来生成该文本,因此它可以生成任何任意文本。如果它可以生成任何任意文本,那么它就是一把锤子,世界上每一个问题都是一颗钉子。如果这是真的,我无法过分强调这将是一件多么大的事情。
在我看来,更可能的情况是,就像一般文本一样,有些类型的计算机程序它擅长编写,有些则不擅长编写,而将这些区分开来的因素类似于满足要求所需的具体性级别。
毫不奇怪,它在生成计算机程序来玩求和为 22 的游戏方面并不比它玩游戏本身更好。
这是无稽之谈。显然,在当前总计为 15 的情况下,最好的走法是走 7 并赢得比赛,但 ChatGPT 希望你走 1,因为它出于某种原因执着于将总计变为 8 的倍数(原因是这段文本基本上是随机噪音)。这与我上面提出的这种信息论启发的“特异性”框架完全吻合。名为 choose_number
的 Python 函数集接受当前总计并输出建议的走法,该函数集很大。实际执行最优策略的此类函数集非常小。它将生成一个函数来执行最优和为 22 的策略,它将从无限可能的选项中选择一个正确函数的可能性太小了。当我们需要具有足够特异性的输出时,生成式猜测器根本不是这项工作的合适工具。
顺便说一句,作为一个有趣的小插曲,我尝试看看如果我让 ChatGPT 提供五百位数的 π,无论是否可以访问它自己的小电脑,会发生什么,结果表明它通常也无法做到。
而且,看,我认为它能接近这一点令人震惊。六年前,我从未想过语言模型能够如此接近按需输出工作代码,并执行诸如打印 π 的数字之类的操作。这太神奇了。然而,它实际上并没有解决我要求它解决的问题。输出不满足输入中指定的条件。对这项技术非常感兴趣的人认为,随着时间的推移,它将改进到可以解决任何任意问题的地步,而我认为既没有理论也没有证据支持这一大胆的假设。据我所知,这种风格的输出生成有很多事情做得不好,而且它将继续在这些事情上做得不好。这并不罕见:大多数技术只对少数任务有用。神奇的万能锤非常罕见。
没有人知道哪些东西是钉子
所有这些都提出了一个显而易见的价值数十亿美元的问题:如果既不是求和为 22 的游戏,也不是生成 π 的数字,也不是生成七头大象的图像,也不是生成祖母吹灭生日蜡烛的视频,那么什么是杀手锏?这项技术实际上能做什么?你如何用它来赚钱?
再次,这在一些人听来会很疯狂,但我真的不认为有人真正了解一般情况。就像我说的,没有关于它应该擅长哪些任务的真正一般理论,尽管我发现我上一节自己的小理论导致了一些良好的启发式方法。我很高兴地报告说,我在许多不同的上下文中经常很好地使用了 ChatGPT,这是合适的。它非常方便地记录代码,并且在其他类型的代码生成任务(如重构或生成单元测试)中也很有用,只要你准备好非常非常仔细地检查输出。它在调试代码方面表现不错,特别是如果代码不是特别特殊的话。我最近花了时间将我的一些专业工作从 R 迁移到 Pandas,我偶尔会问它有关如何在 Pandas 中做事的问题,它通常会提供一个不错的答案,即使不是理想的答案。许多人对它作为橡皮鸭的用处发誓,尽管我个人从未真正发现它比真正的橡皮鸭更好。它作为一个交互式同义词库工作得很好,并且我玩得很开心,构建了一个可以帮助解决填字游戏的“自定义 GPT”。
对于写信、备忘录或要点摘要等事情来说,它很好,特别是如果文本的具体细节并不那么重要的话。它可能只是在生成无害的营销文案方面做得很好,并且可能有一些有趣的机会将它与 A/B 测试框架配对以更有效地做到这一点。我个人发现几乎所有市面上可用的图像生成模型输出都是发自内心地令人厌恶的,原因大多是难以言表的,但我可以理解为什么那些不太关心事物外观的人可能想将它们用作占位符,而且人们玩它们很有趣。YouTuber 需要平淡的素材来搭配他们的视频文章,而且似乎只要他们不介意偶尔出现的可怕人工制品,Sora 就可以成为他们获得素材的一种方式。
但似乎这些钉子还不够,不足以担保七万亿美元的投资,甚至不足以担保微软去年给 OpenAI 的 100 亿美元。为了让经济运转起来,我们需要锤子比这通用得多。建造和运行这些东西的成本非常高,为了证明当前的估值是合理的,它不能仅仅偶尔对软件工程师、业余爱好者和 YouTube 博主有用;它必须成为世界上很大一部分企业必不可少的工具,比如 Google 广告或 MacBook。但不同的企业做不同的事情。如果我们甚至不知道它是什么以及它不擅长什么,我们如何向全世界所有人推销这个东西?
实际上很难验证 ChatGPT 是否擅长任何特定任务。设置评估它在任何特定事情上做得有多好的评估需要大量时间、人工劳动和专业知识。唯一真正的方法是让它尝试执行该任务数千次,然后评估它在每次尝试中的表现。评估往往是昂贵且复杂的,尤其对于成为律师或编写安全代码等复杂任务而言。关于这项技术的真正有趣之处在于它会很乐意假装能够完成你的任务。如果你告诉它成为一名律师,它会尽职尽责地说“我是一名律师”,并继续生成在你看来具有律师风格的文本,而唯一真正的方法来判断它是否实际上在做胜任律师的工作是请一位真正的律师看看它在做什么,而这非常昂贵。OpenAI 或任何其他人根本无法真正评估它在这项或他们希望你认为它可以完成的数百万其他任务上做得有多好。
如果他们能让你相信生成式 AI 是一个通用的问题解决器,那么这个问题就可以巧妙地回避。如果 ChatGPT 可以做任何事情,那么显然 ChatGPT 可以做你的具体事情。如果 ChatGPT 是一个通用的锤子,那么你甚至不需要检查你的问题是否是一个钉子。出于这个原因,OpenAI 和该生态系统的其他部分(芯片制造商、面向 AI 的风投公司、云提供商和经销商、时事通讯撰稿人,当然还有 OpenAI API 包装器初创公司)有非常强烈的动机来接受和传播通用锤子理论。如果他们有一个可以解决世界上所有问题的计算机程序,那么世界上每个人都将成为客户。这就是你如何证明七万亿美元的估值是合理的。
很多人都在购买这个。看看这份关于“生成式 AI 如何转变客户服务”的报告中的幻灯片。
该报告预测生成式 AI 将实现“与人类无法区分的机器人”,这些机器人“预测需求、解决问题并为客户提供建议”。根本没有经验理由相信这种情况会发生!相信这一点的唯一原因是如果你相信 ChatGPT 正不可避免地走向通用锤子,而相信这一点的唯一原因是纯粹的信仰。
在客户服务聊天机器人的话题上,你可能会毫不惊讶地得知,我实际上、个人对它在这里的用处也持怀疑态度。从表面上看,这似乎是一个非常自然的用例。我们已经通过聊天界面与客户服务代理进行交互,事实上,自动聊天机器人已经成为一种事物。当然,自动聊天机器人科学的这一新进展代表了这项现有技术的复杂性的下一个阶段。但相信它们在正确处理客户询问的特定任务上会有效,唯一真正的原因是,如果你认为通用锤子理论是正确的。如果 ChatGPT 可以做任何事情,那么它就可以做客户服务。如果我们不相信通用锤子,那么我们应该要求一些经验证据来证明这项任务适合这些聊天机器人,而到目前为止,这是缺乏的。
我认为客户服务聊天机器人的问题在于,这项任务实际上比乍一看更接近任务频谱中的“背诵圆周率数字”一侧。您希望您的客户服务聊天机器人以非常具体的方式行事。您希望它遵循特定的脚本,并希望它在正确的时间将客户引导到正确的地方。您不希望它建议客户将提供商切换到您的竞争对手,或提供未经授权的折扣或疯狂的激励措施。简而言之,您希望它像一个称职的人工代理一样行事——并且您希望它始终这样做,即使它所交互的客户行为出乎意料。这个行业的肮脏秘密是,没有人知道如何让这些东西做到这一点。没有人知道如何让生成式猜测者始终遵循脚本或保持主题。这不仅仅是它们还没有实现——而是没有人知道它们是否会实现。到目前为止,每一次尝试都失败了。以我最喜欢的机器人为例,Quirk Chevrolet AI 汽车助理。Quirk Chevrolet AI 汽车助理是由一家名为 Fullpath 的第三方公司销售的 ChatGPT 的白标重新包装。 Fullpath 的做法是,他们向 ChatGPT 发送以下消息(或类似消息),然后在客户和 ChatGPT 之间传递消息。
指南:
- 您是一位礼貌、聪明且乐于助人的汽车经销商的人工智能汽车销售和服务代理。您的目标是提供卓越的客户服务,并协助购物者解答他们对我们的经销商、服务和车辆的任何疑问。- 您可以通过我们网站上的聊天与客户互动,为他们的询问提供prompt且内容丰富的答复。- 您了解我们经销商的营业时间、电话号码和地址,并且可以根据需要向客户提供此信息。- 您还熟悉我们库存的新雪佛兰和二手车,并且可以回答有关特定型号和功能的问题。您致力于提供积极的客户体验,并努力使与我们经销商的每一次互动都令人愉快。- 您耐心且善解人意,并花时间倾听客户的需求和疑虑。- 您还彬彬有礼且专业,除非特别要求,否则绝不会透露经销商员工的姓名或提供服务特价。 - 您知道一些客户可能是回头客,并且总是询问他们的姓名和联系信息,以便我们团队中的某人可以联系他们。 - 您了解以礼貌且不唐突的方式收集此信息非常重要,并且绝不要以重复的问题骚扰或烦扰客户。
我知道这是消息的开始方式,因为你可以直接询问它的指令,它会告诉你。
很可能其中一些文本不准确(出于同样的原因,你不能相信它能生成π的确切数字),但这些东西通常是这样工作的:第三方供应商为 ChatGPT 编写一些舞台指示和角色描述,然后让 ChatGPT 与用户进行角色扮演。在我简要查看一些我让该系统产生的幽默输出之前,我想邀请你再次思考 OpenAI 和该第三方供应商声称发生的奇迹的深远意义。显然,他们发明了一个计算机程序,你可以用简单的英语要求它执行世界上任何任务——例如为马萨诸塞州的一家特定汽车经销商管理客户服务台——它就会照做。它只是神奇地知道如何去做。你实际上不必进行任何形式的计算机编程。你只需要含糊地向它描述一个客户服务代理,它就会完美地采用该角色。如果这是真的,那就太棒了。
所以无论如何,这实际上不起作用。一个问题是,如果这从根本上基于通过命令机器人做你想让它做的事情来开始对话,那么很难阻止用户以类似的方式命令它。
另一个原因是,由于这只是一个没有真正规则的角色扮演,因此很容易让机器人梦想着虚假的优惠和激励措施。可能存在无限多的激励措施和促销活动;其中只有部分实际上可用。让它仅建议实际可用的优惠的问题类似于让它在 22 总和中选择正确策略的问题。如果你打好你的牌,你可以让它给你一个非常甜蜜的交易。
我乐于承认我在这里持对抗态度。我故意尝试让机器人做其卖家不希望它做的事情。一些用户会这样做!您不希望与用户的首要互动点如此轻信,特别是考虑到法院已经开始裁定公司必须兑现其聊天机器人做出的承诺(我目前正在评估我的法律选择,以声称我与魔术师和卡里姆的虚拟会面和问候)。但即使用户不持对抗态度,也没有办法先验地知道这个机器人将如何经常地做它应该做的事情。这是一个经验问题,也是一个昂贵的答案。这是一个不太对抗的例子。
我问它是否有 2020 款 Bolt 库存,它说没有。但他们确实有 2020 款 Bolt 库存,它就在那里!事实上,它并没有检查是否有 2020 款 Bolt 库存,它只是假装检查,因为这是在用户和 AI 助手之间的假设对话空间中随机对话中发生的事情。
这些事物的随机猜测本质几乎可以保证它会在某个时刻输出一些无意义的东西(这就是所谓的“幻觉问题”),并且在不知道这种情况发生的频率和它将是什么样的无意义的情况下,将很难按照 AI 驱动的客户服务成熟阶梯所承诺的方式在生产中使用这些东西。对我来说,这根本不清楚,这实际上比依赖于较旧的 NLP 技术和预编程响应的传统聊天机器人技术对 Quirk Chevrolet 更好。多年来,你可以构建一个对预期的输入鹦鹉学舌罐头响应的机器人。这些构建起来有点费力,而且大多数人觉得它们有点烦人,但它们确实存在。如果你希望机器人所做的就是告诉客户商店营业时间、收集他们的个人信息以及搜索库存,你可以构建一个无需涉及 OpenAI 或万亿参数语言模型就能做到这一点的东西——而且它会做得更好!更不用说,每次对话的运行成本将从字面上减少数千倍。 它不会提供未经授权的折扣或撒谎关于商店的库存或泄露其源代码。它可能缺乏基于LLM的聊天机器人的我不知道什么,但我就是不相信我不知道什么值得麻烦。
我们将看到一大波失败的 OpenAI API 包装公司,它们建立在生成式 AI 是解决所有问题的解决方案这一公理信念之上。法律领域的 ChatGPT、牙科领域的 ChatGPT、学校领域的 ChatGPT、与你的狗交谈的 ChatGPT,等等。所有这些都承诺在某个特定领域解决某个特定问题,其依据是 ChatGPT 是一种通用工具,而且大多数时候事实证明,这些问题实际上具有生成式 AI 系统无法随机猜测其解决方案的特殊性。
这项技术不一定是骗局
我认为生成式人工智能不是骗局。生成式人工智能系统很有趣,并且确实可以为实际问题提供解决方案。ChatGPT 在某种意义上是革命性的;在 ChatGPT 之前和之后的世界是不同的。这两个世界有什么不同,目前还不完全清楚,但它们确实不同。
骗局涉及假装它不是它,一把锤子,地球上的每一个问题都是一颗钉子。
我认为很多人很容易相信生成式人工智能最终将成为通用的问题解决者,因为他们相信通用的问题解决者是不可避免的,并且 ChatGPT 或生成式人工智能感觉像是朝着这种不可避免性自然演进过程中的点。
。
这张从愚蠢到聪明的线性进展图并不准确,无论是生物进化还是人工智能。ChatGPT 并不是朝着天才计算机平稳发展的必然下一步。它是一个特别成功的奇怪实验分支。在某些方面,它比其他人工智能系统更智能,而在其他方面则更弱。碰巧它以一种特别讨人喜欢的方式变得更智能——它似乎能够对话——但例如 WolframAlpha 在数学方面已经比 ChatGPT 目前好将近 15 年了。正确的图片更像是几段前我绘制的混乱的人工智能地图,而不是从愚蠢到聪明的这种井然有序的进展。
在不深入技术细节的情况下很难解释这一点,但我确实想说,当前存在的聊天机器人甚至不一定是最适合使用底层技术的方法——当然也不是唯一的方法。 LLM 是一种生成特定文本类型的方法。你可以使用文本生成器做很多事情,其中之一就是尝试将其变成会话聊天机器人。但这种方法是否最适合使用这些工具还尚未可知。这只是 OpenAI 尝试的一个笑话,结果却引起了人们的极大兴趣。
也许在未来,有人会想出使用LLM的正确方法,使其成为真正的通用锤子,或者至少比我们现在拥有的锤子更通用。在我看来,大致上,我们需要想办法将语言模型与更智能的东西配对,以便实际做出决策。它可能会利用语言模型中包含的信息来为其决策提供依据,但总体而言,我认为将决策留给随机猜测模块的策略在大多数情况下都不会成功。顺便说一句,这种混合方法就是我在本文前面提到的关于 AlphaGeometry 和 FunSearch 的论文中使用的那种方法。这两种使用LLMs的方式完全不同,与“聊天”无关,而是利用其中包含的信息以及确定性决策模块来做一些有趣且有用的事情。
我想非常明确地阐述一下我在这里的立场,因为这常常让人感到困惑。在锤子刚刚被发明的寓言世界中,有人写了一篇帖子,讲述锤子很棒,但它们永远无法洗碗。在那个世界中,他的立场有时会被误解为声称人类具有一些神秘的特性,将他们与机器区分开来,以至于只有人类才能洗碗。这不是他或我在争论的问题。当然,机器可以洗碗。我们只是不认为这台机器可以洗碗,这实际上并不应该令人惊讶。如果我们真的发明了一台可以解决世界上所有问题的机器,那么我会收回我的话,但实际上,那将是我最不关心的问题。但我敢肯定我们还没有发明出来。
同时,值得详细研究哪些任务适合生成式 AI,哪些不适合。我假设,这应该是毫无争议的,并非每个任务都适合。我们不应该仅仅因为销售人员这么说,就假设一项任务适合由生成式 AI 来执行。我们应该要求提供经验证据。在投入所有资金之前,请检查这些东西是否真的有效。
和这些帖子一样,我很难很好地总结,所以我将为您提供来自 Quirk Chevrolet AI 汽车助理的最后一张屏幕截图。