对大模型技术与可能的社会影响的思考(三)
1. 通用人工智能的可能性
本节我们将讨论通用人工智能(AGI)实现的路径沿革,目前的技术路径如何通向AGI以及路径上可能存在的障碍。
人类对于人工智能的追求由来已久,主要可以区分为符号主义,行为主义,连接主义[1]三种派别。
符号主义认为人类认知和思维的基本单元是抽象的符号,而计算机也是一个物理符号系统,认知过程就是在符号表示上的一种运算,这种思想主导了1956到1976的20年间的人工智能研究发展,包括通过机器证明的方式完成数学定理的证明,构建专家系统完成专业知识的问答等。然而这一方向的探索最终由于构建出的系统缺乏解决实际问题的能力而丧失了活力。但这一主义仍未消亡,在现代仍然有知识库,知识图谱等前沿研究方向,并往往被认为是当代人工智能因果推理和事实性分析问题的解决方案。
行为主义的思想源于控制论,控制论思想早在20世纪40 ~ 50年代就成为时代思潮的重要部分,影响了早期的人工智能工作者。这一学派认为智能取决于感知和行为,取决于对外界复杂环境的适应,而不是表示和推理,不同的行为表现出不同的功能和不同的控制结构。生物智能是自然进化的产物,生物通过与环境及其他生物之间的相互作用,从而发展出越来越强的智能,人工智能也可以沿这个途径发展。 行为主义催生了强化学习范式,这一范式目前仍然是机器人领域的重要研究方向。另外结合连接主义和行为主义的深度强化学习(使用深度神经网络作为值函数和策略函数的拟合器)也是目前人工智能研究的一个前沿方向,目前最著名的成果是2016年谷歌发布的围棋机器人AlphaGo[2],击败了当时的世界冠军李世石。目前这一领域的前沿研究方向包括使用人工智能攻略各种复杂的电子游戏,以及完成复杂机器人的控制等。
连接主义的思想源于仿生学和生理学,主张通过人工神经网络——即通过高度互联的人工神经元构成复杂网络,来实现推理,认知等复杂的智能行为。连接主义的第一轮热潮出现在1976到2006年间,这30年时间内的主要的技术是BP神经网络(反向传播),研究人员通过BP神经网络搭建的多层感知机实现了手写数字的识别,人脸识别,字符识别等模式识别任务,因而激发了一阵研究的热潮,然而由于当时的人工神经网络缺乏解决复杂问题的能力,在网络深度增加或者数据集扩大的情况下难以收敛等问题,这一技术逐渐衰退,让位于SVM(支持向量机)等表现更好的机器学习方案。然而在沉寂了10年之后,在2012年的ImageNet图像识别比赛中,Hinton组通过AlexNet[3]证明了通过网络架构的改进,训练方式的改进和计算硬件的改进,更深的神经网络能够展现出大大超越传统方案的性能优势。这一工作直接点燃了现代深度学习的火焰,而互联网提供的大数据,集成电路技术进步带来的算力提升等又成为了这一技术的助燃剂。这一技术目前最究级的产物就是我们前两节讨论的大模型。
目前的大模型展现出了远超之前任何一个技术方向的成果,通过现有的技术路径我们可以预期的通用人工智能(AGI)的特征应该是:一个能够执行多种任务(沟通交流,艺术创作,科学探索......),支持多种模态输入(图像,视频,文本,音频......)的大规模神经网络模型,并且在各类任务上都能够具有远超人类能力的表现。这现在也确实是我们有史以来最接近这种形式的人工智能的时候,首先是多任务:即使在深度学习技术快速发展的前几年,人们仍然在构建不同的模型解决不同的问题,即使是采用了预训练模型,也往往要针对不同的下游任务修改模型结构(比如增加一层全连接分类头)和重训练或者调优(fine-tune),其次是多模态,一直到大模型技术取得革命性的成功之前,多模态领域都几乎是一片荒地,人工智能能够处理好单一类型的输入已经是值得高兴的事情。然而大模型展现了极强的图像——文本在语义层面的建模能力,并且这种建模能力也具备推广到其他模态的可行性,这意味着大模型对于抽象概念的认知将不再是简单的词句,也能够包含这段词句背后的东西:比如某种形象(谈到蒙娜丽莎,它在“脑海”里就浮现出了达芬奇的画作),某段声音(谈到命运交响曲,它在“脑海”里就响起了贝多芬的音乐),某段故事(谈到泰坦尼克,它在“脑海”里就回忆起了Jack和Rose的爱情).......而在远超人类能力方面,大模型已经展现了强大的记忆,联想能力,在对话中也展现出了“高情商”,即优秀的共情能力。
但目前大模型导向的AGI路径是否一定能够走通?我们也不能忽视路径上目前仍然存在的诸多障碍,首先是算力需求增加带来的成本上升,据国盛证券报告《ChatGPT 需要多少算力》估算,GPT-3 训练一次的成本约为 140 万美元,对于一些更大的 LLM(大型语言模型),训练成本介于 200 万美元至 1200 万美元之间。以 ChatGPT 在 1 月的独立访客平均数 1300 万计算,其对应芯片需求为 3 万多片英伟达 A100 GPU,初始投入成本约为 8 亿美元,每日电费在 5 万美元左右。而如果模型规模进一步扩大,成本进一步上升,但大模型带来的利润并不足以弥补这一投入的话,那么AGI可能最终仍然被放弃,神经网络模型的规模将被控制在一个成本上可以接受的程度,即使其只能够处理有限的任务和有限的模态,但在商业的投入产出比能够达到更高的水平。
其次是一直被诟病的神经网络模型的可解释性,事实性,因果推理能力等问题,这些问题并不能随着神经网络规模的扩大而解决,可能将会成为长期成为困扰这一技术方向的问题。这来源于技术原理本身,深度神经网络有别于符号主义,实际上在网络内部究竟构建了怎样的一个“世界”,即使是神经网络模型的搭建者也不能够理解,神经网络训练后得到的权重并不是一个具备语义信息的东西,在人类看来只是一堆杂乱的数字构成的庞大矩阵罢了。并且神经网络主要是从概率分布的角度去理解训练集中的知识,这意味着它并不具备像人类习惯采用的“结构化”思维模式,例如对于语句,它不会按照主语,谓语,宾语这种语法结构去展开理解,而是完全从词与词之间的概率联系的角度去理解,因此人类常用的逻辑推演对于神经网络来说是极其困难的事情。事实上目前对于ChatGPT进行的一项测试表明,在2022年中国高考全国卷上,ChatGPT在文科综合(历史,地理,政治)上具有不错的表现(得分率78%),在生物上达到了50%,但是在强调推理的数学,物理,化学学科上只有不到30%的得分率。而在GPT-3的论文研究中我们也发现,计算数学题对于语言模型是一件很难的事情(尽管题目只是一道非常简单的数学应用题),需要通过设计输入的prompt才能够帮助它顺利解决问题。
此外,大模型技术究竟能否在其他领域(视觉,多模态等)复制在语言领域的巨大成功仍然具有一定的不确定性,各类模态的输入方式不同,数据的内在分布也存在着巨大差别,尽管目前的尝试初具成效,但最终能否成功还有待观察。
最后是对于通用人工智能来说其潜在的道德伦理问题。如果人工智能存在的社会偏见(这种偏见往往是数据集或者训练过程中带有的某种社会倾向,比如白人照片多于黑人等),版权问题(比如目前AI绘画领域,大量画师对AI进行抵制,认为这是一种变相剽窃),替代人工(已经激发了社会中广泛的担心被取代的焦虑)等方面的问题,造成了过大的社会撕裂,那么这一技术的进程可能最终也会不得不被叫停。
当然对于人工智能的问题,我个人持有比较开放积极的态度。一个问题是:对于人工智能,我们到底是在追求”工具“还是在追求“先知”?如果我们追求的是前者,那么认清即使是通用人工智能仍然具有其能力极限即可,毕竟这只是一个人类制造出来的”工具“,我们后续的重点就是如何利用好这个”工具“。而如果追求的是后者,想要一个全知全能的”神“,那我只能认为是从文艺复兴以来最大的人类文明的退步。
从前者的思路出发,很多问题都能够迎刃而解,例如神经网络的事实性问题,这里最大的一个问题是“正确度到底要多高?”,知识图谱和人类就百分百可靠么?如果信息来源本身就有误差呢?这个世界上那么多的真真假假,那么多的罗生门,既然不存在绝对的真相,那么需要去苛求神经网络一定要完全正确吗?当然,我并不是在为诸如ChatGPT能够就”林黛玉倒拔垂杨柳“信口开河一大堆的这类问题作辩护,这种明显的事实性错误如何规避仍然是后续研究需要解决的问题。微软的new bing在这方面作出的一个有趣的尝试就是在给出答案的同时附带信息源的网络链接,这使得人能够对神经网络的输出进行查证,通过人和人工智能的配合,我们最终能获得一个更正确的事实。
而因果问题的解决能否也能够借助人类能力完成推理,例如prompt的Let's think step by step?在解答复杂的因果推理问题时,人和人工智能相互配合,人提供更强大的因果分析能力和生活经验,人工智能则作为一个大型的知识库为人类的因果分析提供支撑,并进行一些较弱的因果推理,这或许比起直接让AI解决困难的因果推理任务,是一个在技术上更好的方案,这就需要现在的AI研究在如何配合人类指令执行因果推理任务上作出更多的努力。这一观点的启发来自于我看过的一个和AI合作玩文字解密游戏的视频[4],人类扮演一个迷题的提出者,只能够回答”是“或”否“,或者在人工智能完全无法猜下去的情况下给出必要的提示,而人工智能则提出迷题的各种可能的解释。最后ChatGPT在这一任务上表现的很好,展现了大模型通过In-context Learning和Prompt解决复杂因果推理问题的强大能力。
对于人工智能的可解释性问题,一个有趣的视角是从光学的角度来反思深度学习[5]。就像现在处理人工智能,逐层调整模型规模,超参数等是一件痛苦的事情一样。对于一个透镜系统,人们也并不清楚每一层组件对输入的光的具体影响——例如镜面的形状、位置和倾斜角度等等,紧接着就会需要各种数学优化过程去调整这些组件的参数,例如镜面的形状、位置和倾斜角度等等,去最大程度实现设计目标。重复如此仿真、修改、调优的过程。然而⼈们不害怕这样的设计过程。每年,许多⼯程师都能设计出有用的镜头,他们并不为这样的作法感到担心害怕。早在百年之前,计算光学远没有发展的时候,伽利略就打磨出了可以观测月球的望远镜。也许我们现在就处于伽利略当时的状态,而未来也能够发展出有效的数学工具去帮助我们更好的理解深度神经网络。
最后,即使人工智能在未来可以各类任务上都能够超越人类,依然有一些事情对于现有技术路径的人工智能来说是做不到的,那就是人类的“直觉”——一种捕捉事实之间微弱因果关系的能力,这是人类”创新“动力的来源,古往今来的科技创新从未有谁走在康庄大道上,直接就捡起了宝贵的成果,这些想法在成熟之前往往看上去是一种”狂想“,包括但不限于牛顿对万有引力存在的假设,爱因斯坦对光速不变定律的假设等等,但最后的成果就是建立在这种大胆的假设之上。而对于人工智能来说,它的原理决定了它只能够去选择置信度最高的选项,即使它能够发现微弱的关联,它也绝对不会冒险对其进行尝试,因此在”创新“上,人工智能是无法取代人类的。
本节完成了对通用人工智能(AGI)实现的路径沿革,目前的技术路径如何通向AGI以及路径上可能存在的障碍三个问题的讨论,并在最后附带了一些针对人工智能发展情况的个人观点。
2.参考资料
《人工智能及其应用(第3版)》,王万良等 ↩︎
《Mastering the game of Go with deep neural networks and tree search》[J]. nature, 2016, 529(7587): 484-489. ↩︎
《ImageNet Classification with Deep Convolutional Neural Networks》https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf ↩︎
https://www.bilibili.com/video/BV18e4y1P7SE/?spm_id_from=333.337.search-card.all.click ↩︎