【译】生成式人工智能简介

原作:瑞安·奥康纳

引言:生成式AI最近取得了巨大进步,从Stable Diffusion到 ChatGPT。本文通过简单易懂的介绍,向你呈现生成式AI的最新进展。

 

在过去的几个月里,“生成式AI”一词似乎凭空出现。从 Google 关键字趋势来看,过去12个月一直快速增长,直至今日,人们兴趣依然不减。

这种兴趣可以归因于生成式模型的发布,例如 DALL-E 2、Imagen 和 ChatGPT。 但“生成式AI”到底是什么?

 什么是生成式AI

简而言之,生成式AI是指任何生成新数据、新信息或新文档的人工智能模型。

例如,许多企业都会记录他们的会议——无论是现场会议还是虚拟会议。生成式AI可以通过以下几种方式创造价值:

  1. 它可以自动生成会议议程,以确保会议按照计划内容和程序召开。
  2. 它可以为无法出席的人员生成会议摘要,提炼重要信息以提高效率。
  3. 它可以为会议期间提出的问题,结合上下文生成合适的答案

生成式AI可用于在会议期间或会议后自动生成相关文档

 

生成式AI也可以应用于其他领域。如果我们正在制作游戏,可以使用人工智能生成人物来激发创作过程,或者生成人物动画以产生自然的动作,这既使游戏具有身临其境的感觉,又使开发人员能够专注于其他任务。

游戏的世界和人物,使用Stable Diffusion在不到一分钟的时间内创建

 

生成式AI的潜在应用多种多样,因此在不将范围缩小到特定领域的情况下很难将它们一起讨论。 接下来,我们将提供生成式 AI 的一般定义,然后在更一般的背景下检查其价值主张。

生成式 AI 与判别式 AI

通过将生成式AI与判别式AI进行对比,可以最容易地描述它。 正如所见,当我们想要生成新数据、新信息或新文档时,生成式 AI 非常有用。 另一方面,当我们想要做出某种决定时,判别式人工智能很有用。

例如,如果我们从事医疗保健行业,我们可能希望根据一些生物特征数据(身高、体重、吸烟史、血压等)来预测某人是否有患癌症的风险,或利用这些信息来确定这个人是否患病。

 

根据输入数据,判别式AI模型会决定此人是否有患癌症的风险

 

我们也可以使用其他类型的数据类似地做出决策。我们可能有一个图像,而不是上面的数字列表。例如,我们可能有一张放射图像,目标是确定它是否包含肿瘤。

判别式AI可以使用不同类型的输入数据。在这种情况下,输入是图像

 

当然,我们也可以在其他领域使用判别式 AI。 也许我们不是卫生部门,而是银行业,希望根据交易历史确定某人的身份是否已被泄露或被盗。 我们可能会尝试使用判别式AI来识别可疑交易。。

 

判别式AI也适用于其他领域,例如银行业

 

给定的数据——身高、血压、交易历史等——可以称为特征。当使用判别式人工智能时,我们并不关心这些特征本身——我们只关心结果。

相比之下,对于生成式 AI,我们需要关心这些特征本身。事实上,生成式AI的整体目标是了解这些特征如何相互关联,以生成合理的数据。 例如,假设我们的目标是生成具有代表性的人体样本(为简单起见,此处仅考虑身高和体重)。 那么,下面的示例就不太现实了:

这种身高和体重不可能存在,并且更不可能一起作为样本

 

尤其是人不可能有那么高那么瘦,或者那么矮那么胖; 而且同时出现三个极端情况的样本的可能性就更小了。 相反,我们需要对我们希望抽样的人群中体重和身高的统计分布进行建模,以便生成更真实的新数据,如下所示:

仅考虑身高和体重,这个男性样本比之前的样本要真实得多

 

下一小节将介绍一些技术性知识,并围绕这个概念构建一个松散的数学框架。

      数学角度

通常,判别式 AI 被认为是对条件分布进行建模,而生成式 AI 被认为是对联合分布进行建模。

判别式 AI(左)在空间中找到条件分布或决策边界,而生成式 AI(右)则对联合分布进行建模

[注] 条件分布和联合分布

这个定义并不严格。 特别要注意的是,并非所有判别式人工智能技术都对条件分布进行建模,因为并非所有判别式人工智能方法都首先对分布进行建模。 例如,支持向量机不是概率性的,但它们仍然通过在空间中查找决策边界来用于判别式 AI。

另一方面,对于生成式 AI,通常可以说正在对联合分布进行建模,因为分布本身就是建模的对象。 一旦我们对分布进行建模,我们就可以用不同的方式使用它。 我们可以进行密度估计,例如估计某人身高超过 71 英寸(180 厘米)且体重低于 150 磅(68 公斤)的概率。

或者,我们可以从这个分布中采样来生成新的数据,有多种原因这样做。 一个原因可能是使用生成的数据来训练另一个人工智能模型。 另一个原因是使用生成的数据本身(就像我们对 DALL-E 2 等模型所做的那样)。 人们在通俗地谈论“生成式AI”时通常指第二个原因。

无论如何,当我们从数学的角度谈论生成式AI时,我们通常谈论的是联合分布建模。

生成式AI的价值

我们已经看到了如何以简单的方式使用生成式AI,例如作为游戏的世界模型或角色模型灵感。

除了这些明显的创意用例之外,我们可以用另一种更抽象的方式来思考生成式AI,这种方式在概念层面更有帮助。 特别是,也许思考生成式AI的最普遍的方式是从(潜在的)前因到期望的后果的映射。 让我们更详细地看看这意味着什么。

当开发一个项目、产品或业务时,我们通常有一些明确的目标。 为了实现一个目标,我们通常用可衡量的结果作为该目标的指标。 例如,假设我们的目标是成为 X 市场的卓越品牌。 假设我们的产品 X 在社交媒体上的份额增加了 Y% 是我们可衡量的结果,它可以作为衡量我们目标进展情况的良好指标。 我们如何才能实现 Y% 的增长?

在这种情况下,增加社会份额的可衡量结果意味着我们在实现目标方面取得了进展

一般来说,我们对于如何实现这一结果可能有很多想法。最终,我们正在做的是寻求实施一些改变或想法(前因),以实现期望的结果(后果)。

对于可能导致我们期望的结果(蕴含)的潜在举措,我们可能有许多想法(前因)

通常,我们不知道一个想法是否是有效前提。 也就是说,这个想法的实施真的会带来预期的结果吗? 因此,我们的工作是调查、实施和迭代多个潜在的前因,以尝试观察期望的结果。 我们必须尽最大努力证明一个想法实际上是期望结果的前提——即变化必然带来结果。

建立蕴含意味着特定的前因导致期望的结果,进而导致我们的主要目标。

Note:虽然我们可能不确定某个特定的变更是否是先验的前提,但我们可能对某个特定的变更或想法充满信心,因此已经致力于实施它。 值得注意的是,在这个更简化的场景中,仍然保留了下面讨论的生成式 AI 的有用性。

这里的关键点是潜在前因的实现细节通常是这个过程的瓶颈。 思考我们想要什么结果,以及思考什么改变会导致该结果都很容易,但如何弥合这两者之间的细节是一个挑战。 无论具体领域如何,人类实现都需要大量的工作。

测试/和实现各种想法的能力瓶颈是人工

在这种情况下,生成式AI被认为是在潜在的前因和期望的后果之间搭建桥梁的工具。 我们可以使用生成式 AI 来加快将这些想法付诸实践,完成所涉及的许多实施细节:

生成式AI可以加快我们想法的实施

一个简单的例子

让我们通过上面场景中的一个具体示例来看看它是如何工作的。特别是看看想法 B,即在我们的产品页面添加一个按钮,以便在社交媒体上轻松分享产品。请记住,我们期望的结果是实现社交份额增加 Y%,因此这一变化似乎是实现这一结果的潜在先决条件的良好选项。

从技术角度来看,实施此更改(即添加此按钮)可能需要一些时间。我们必须设计一个在风格上与我们的网站相匹配的组件,我们需要将其合并到模板中,以便它显示在多个页面上,我们必须探索外部社交媒体平台的 API 如何工作,我们可能要求登录前先创建账号,这需要与数据库进行交互。生成式AI可以加速所有这些任务。

我们可以使用生成式AI来编写(相对简单的)代码来实现这一点。下面,我要求 ChatGPT 编写一个简单的 Next.js 组件来实现这些社交共享按钮。

… 图片不再展示…

人类需要做的主要工作是审查。 请注意,该模型甚至给出了代码的解释,这将减少审查时间。 我们可以更进一步,要求模型使用堆栈中的一些特定工具向我们的组件添加样式。

… 图片不再展示…

凭借扎实的领域知识和良好的快速工程原理,人类可以使用生成式AI来显着缩短实现此类功能所需的时间。

当然,这是一个简单的例子,重点传达上述基本思想。实际任务并不是很复杂。许多带有价值的业务成果并不复杂,当有能力的用户使用时,生成式AI可以大大加快这些变革的实施。

最重要的是,生成式AI使想法的实现变得快速且容易。

此外,我们必须记住,在未来的所有时间里,我们目前都处于生成式AI帮助程度的下限。随着模型变得更加强大,其潜在应用的范围和有用的深度只会增加。此外,随着生成式AI模型在传统工具上的定制集成,生成式AI将与我们的工作流程紧密交织在一起,进一步增强其影响。

当前生成式 AI

生成式AI并不是一项新技术,但最近性能和兴趣的爆炸性增长可归因于过去 5 年左右取得的进步。

在图像空间(DALL-E 2、Imagen、Stable Diffusion等模型)中,进步主要依赖于扩散模型的开发。

在语言空间(诸如 ChatGPT、GPT-4 等模型)中,进步主要是通过 Transformer 架构的扩展来实现的。

posted @ 2024-01-29 01:03  白鹿原老张  阅读(39)  评论(0编辑  收藏  举报