【译】超越语言:AI领域基础模型和大型语言模型 (LLMS) 的崛起
原作:阿比纳夫·辛格
引言:作为人类这个独特物种,我们拥有的最珍贵的天赋之一,就是能够以表达、分享和与他人互动。这种能力使得我们能够在纷繁复杂的环境中孕育出创新、发现和发明的宝藏,实现了无与伦比的成就。而所有这些壮丽的过程都围绕着一个核心:语言。
从人类进化的黎明时期起,语言就扮演着不可或缺的角色。随着时间的推移,语言逐渐演化,形成了令人惊叹的口头和书面形式,蕴含着潜在的规则和结构。随着全球边界越来越小,特别是计算机和人工智能的崛起,知识的边界得到了极大的扩展,并且这个过程还在持续不断地进行着。
在美国科幻作家特德·蒋的《你一生的故事》一书中,后来被改编成电影《降临》,“语言”被用作一个中心主题,塑造了我们对世界的理解和现实的感知。
主角路易丝·班克斯(艾米·亚当斯饰)是一位语言学专家,需要与抵达地球的外星人进行交流。当她开始学习他们的语言时,她开始以不同的方式看待时间,经历着未来的幻象,并理解了语言作为我们看待周围世界的一种镜头的重要性。
AI 模型的演变
从符号和子符号的解释到基于逻辑推理,再到数据驱动的模型,人工智能已经走过了漫长的发展之路。然而,我们离目标还有很长的路要走。
在上世纪90年代,高级分析开始涉及由开发人员编码的分步逻辑和指令,这些逻辑和指令本质上是确定性的。 传统的商业智能(BI)和基于规则的异常检测就属于这一类。
随着机器学习(ML)的出现,重点转向了人工设计的特征和监督学习技术。预测、价格优化等领域属于此范畴。
此后,深度学习开始崛起,其主要关注点是无监督学习,通过输入数据来生成规则和算法。图像识别和自动驾驶是这里的重点领域。
今天,我们正处于“基础模型”时代,这些模型吸纳了大量数据,能够生成类似人类的艺术作品、文本、图像和视频。
什么是基础模型?
根据斯坦福人类中心人工智能研究所(HAI)2021年的一篇研究论文,"基础模型是指那些在广泛数据上进行训练的模型(通常采用大规模的自监督学习),可以适应(例如微调)各种不同的下游任务;目前的例子包括BERT、GPT-4和CLIP。"
基础模型的基本概念是深度神经网络和自监督学习,这两个概念已经存在多年了。然而,近年来它们获得了巨大的规模和范围发展,使我们对可实现性的观念不断扩大。例如,最近发布的GPT-4语言模型拥有一万亿个参数。语言模型中参数的数量是其学习复杂功能和模式的能力的指示。
基础模型的基本概念是深度神经网络和自监督学习,这两个概念已经存在多年了。然而,过去几年它们的巨大规模和范围扩大了我们对可实现目标的概念。例如,最近推出的GPT-4语言模型就有万亿个参数。语言模型中参数的数量是其学习复杂功能和模式的能力的指示。
大自然为许多好奇的人提供了答案。
一些机器学习模型,尤其是那些基于神经网络的模型,深受蜘蛛网复杂的生物材料力学的启发。
基础模型通过“迁移学习”和“规模”发挥作用。迁移学习的概念涉及将从一项任务中学到的知识应用于另一项任务。例如,学习驾驶汽车,然后利用这些知识驾驶公共汽车或卡车。
虽然迁移学习使基础模型成为可能,但规模使它们变得强大。规模涉及以下组成部分:
- 计算机硬件的改进 – GPU 吞吐量和内存在过去四年中增加了 10 倍
- Transformer 模型架构 – 利用硬件的并行性来训练表达能力强的模型
- 更多可供使用的训练数据
基础模型是在某些领域天然具备多模态数据的基础上进行训练,然后可以被调整以适应各种不同的下游任务
基础模型的涌现和同质化
与基础模型的强大和多样性相关的两个关键概念是——涌现和同质化。
涌现可以被视为复杂模式和行为的出现,这些模式和行为来自底层组件之间的相互作用。它指的是宏观系统的特征,在其微观构件无法解释。例如,水分子产生波浪,无生命的原子产生活细胞,椋鸟一起飞翔形成鸟群等。这些概念在基本层面上并不存在,但当事物积累起来并作为一个整体行动时才会“出现”。
涌现允许我们发现和理解高层次的模式和行为,这些模式和行为在微观水平上不能被直接解释。而同质化则促进了经验知识在不同语境中的迁移,提高了基础模型的适应性和效率。
水分子具有由其成分(氧和氢)的特性产生的新特性。许多分子聚集在一起会产生波
在基础模型的情况下,当由于模型庞大的参数和架构,它可以学习未明确标记的数据之间的关系时,就会出现涌现。这种出现行为对于执行语言理解和图像识别等任务至关重要。
另一方面,同质化是指在不影响质量的情况下将相同的基础模型应用于不同的下游任务的过程。因此,无需为每个新任务从头开始开发新模型,只需使用相对较少标记的示例对预训练的基础模型进行微调即可。例如,现在几乎所有前沿的 NLP 模型都改编自少数基础模型之一,例如 BERT、RoBERTa、T5 等。
基于基础模型,研究人员已经能够构建大规模人工智能系统,例如生成式AI和大型语言模型(LLMs),以帮助我们找到复杂问题的创新解决方案,并进而更好地理解我们的物理世界。
深化基础模型:生成式AI和 LLMs
生成式AI是一系列算法的集合,它可以在分析预训练数据的基础上生成看似新颖的图像、视频、文本和音乐。它们建立在经过大量未标记数据训练的基础模型之上,并且可以通过识别组件之间的底层关系执行广泛的任务。
例如,GPT(Generative Pretrained Transformer)模型,如GPT-3.5,是针对文本摘要、问题回答、情感分析等任务进行微调的基础模型。DALL-E是另一个基础模型,根据文本输入生成图像。
DALL-E 2 可以通过结合概念、属性和风格,根据自然语言的描述创建图像和艺术。
该图像是输入的结果:“一幅梵高风格的水仙花田附近行驶的火车的风景画。”
预训练模型是在用于特定任务之前,经过大量数据训练的ML模型。他们可以通过将时间和资源减少到最低限度,同时将知识转移到另一个领域或任务来节省时间和资源。
最近受到关注的一种预训练模型是语言模型(LM)。语言模型具有预测给定上下文中下一个单词或token的能力。通过捕捉自然语言的句法和语义模式,语言模型可以生成流畅、一致且易于理解的文本。
传统语言模型的主要缺点在于其有限的词汇量和上下文窗口长度。这阻碍了他们写出长篇且多样化的文本的能力。
为了克服这些限制,创建了大型语言模型(LLMs),其拥有庞大的词汇表并能够处理极长的token序列。他们接受了来自不同来源和领域的数据的预先训练,例如文章、书籍、网页等。通过学习丰富的语言实体,他们可以生成各种主题和风格的文本。
从高层次来看,LLM 的架构由在复杂网络中相互连接的多层人工神经元组成。在这个背景下,有两个值得讨论的组件 - 编码器和解码器。
随着神经网络中隐藏层的数量增加,形成了深度神经网络,使机器能够通过识别不同处理层中的模式来自主学习。
编码器接收输入文本并将其转化为高维向量表示。解码器以该表示为输入,并生成输出,可能采用分类、预测或生成序列的形式。
LLMs 可以通过在特定任务的数据上进行微调或将其作为特征提取器来应用于不同的自然语言处理(NLP)任务。
微调是通过使用相对较少的标记数据针对特定任务调整预训练模型的参数的过程,例如问答、摘要、情感分析等。与从头开始训练模型相比,这个过程可以在更短的时间内取得更好的结果。
另一方面,特征提取是指从预训练模型中提取有用特征,并将其应用于特定的下游任务的过程。例如,在图像分类中,可以使用预训练的卷积神经网络(CNN)进行特征提取,只保留特征提取层并删除分类层。这些层可以用于从新图像中提取特征,并且甚至可以输入到较小的神经网络中将图像分类为特定类别。
案例研究:使用基础模型和大型语言模型预测分子结构
预训练模型不仅可以文本生成、代码编写和音乐创作,还可以预测分子的形状和属性。根据IBM研究部门最近的一项研究,有强有力的证据表明,大规模分子语言模型可以包含足够的化学和结构信息,来预测不同的分子特性,包括量子化学性质。
以前,为了通过获取分子的三维结构来准确预测其性质,需要进行大量的模拟或实验室实验。这个过程需要花费大量时间,从数月到数年不等,而且成本高昂,限制了详细结构数量的可用性。
一种属于分子发现基础模型 MoLFormer(分子语言 transFormer)家族的新 AI 模型已经开发出来。其中表现最好的变体被命名为MoLFormer-XL。
MoLFormer 管道概述。该架构采用高效的线性注意机制和相对位置嵌入来设计,以获得化学分子的有意义的表示。
在训练后,通过在任务特定数据上进行微调,可以将MoLFormer基础模型应用于各种下游分子属性任务中。
新模型可以推断分子的形式和结构,并可以预测其物理、生物物理甚至量子力学特性,例如分子的带隙能量,一种将阳光转化为能量的能力。
传统的分子模型基于图神经网络架构,通过其 2D 或 3D 结构预测分子行为,但 MoLFormer-XL 依赖于超过 11 亿个分子(传统模型中仅包含10万个分子),每个分子由属于SMILES(简化分子输入线条记录系统)符号系统的紧凑文本片段表示。
在自然语言处理中,注意力图或特别是注意力机制是底层架构的一部分,能够动态地突出显示输入数据的相关特征。通过这样做,神经架构可以自动权衡输入的任何区域的重要性,然后可以在执行主要任务时考虑这些权重。
注意力图示例
通过模型理解底层结构是一种自然而然的行为。MoLFormer-XL的注意力图显示了该模型能够在没有明确指定这些属性的情况下,通过其风格或渗透性来区分模型的能力。该模型关注分子中原子的相对位置,学习其结构和性质,并适用于筛选具有新应用或发现新分子的潜力。
原子中电子的量子力学表示,使用三维波函数的表示法。
MoLFormer-XL的优势在于其规模,但通常会导致巨大的计算和能源训练成本。然而,通过实现高效的线性时间注意力机制,并在提供输入之前按长度对SMILES字符串进行排序,每个GPU的处理成本从50个分子提高到1600个分子,从而将GPU数量从1000个减少到16个。研究人员能够在五天内训练一个模型,并且耗能降低了61倍。
借助MoLFormer-XL,研究人员可以快速筛选大量分子并识别那些具有所需特性的分子。这在加快药物发现、对抗新兴疾病甚至发现新材料以促进清洁可再生能源转型方面具有突破性意义。
结论
基础模型和 LLMs 正在改变自然语言处理(NLP)领域以及其他领域。然而,重要的挑战和风险:如伦理、社会和技术问题,也随之而来,需要仔细解决。
通过提供前所未有的自然语言生成、理解和操控能力,以及跨任务和领域之间传递知识,我们可以期待看到更多令人印象深刻的能力和应用,这些能力和应用程序将从根本上改变我们与机器以及彼此之间的交流方式。凭借语言的天赋和这些模型的力量,创新和文明进步的可能性是无限的。
“毫无疑问;语言可以使我们摆脱或几乎摆脱感受。也许这就是它的功能之一,让我们能够理解世界,而不被其完全压垮。”
——卡尔·萨根《接触》
Notes:
- 大规模化学语言表示捕获分子结构和性质
https://doi.org/10.48550/arXiv.2106.09553 - 学习分子语法的人工智能基础模型
https://research.ibm.com/blog/molecular-transformer-discovery - 自然语言处理中的注意力
https://doi.org/10.48550/arXiv.1902.02181 - 论基金会模型的机遇与风险
https://doi.org/10.48550/arXiv.2108.07258