针对图像生成相关技术的初步调研

1 前言
2 图像 & 视频
3 三维模型
4 语音合成
5 附录

1 前言

近年来，人工智能生成内容（Artificial Intelligence Generated Content，AIGC）得到了快速发展，在图像、视频、三维模型等生成任务中展现出强大的能力，并广泛应用于各个领域。

本文将重点介绍文本到图像生成领域的技术发展历程、主流模型及其应用情况。包括先进系统如Midjourney是如何实现文本到图像生成的，以及其使用的Transformer、CLIP、Diffusion模型等核心技术。同时，我们会列举其他重要的图像生成系统，例如Stable Diffusion、DALL-E 2等，并分析它们的共性和不同之处。除此之外，我们还将概述图像编辑、视频生成、三维模型生成等相关技术。最后，我们将简要讨论语音合成领域的技术发展，并与图像生成技术进行对比。

2 图像 & 视频

Midjourney目前是图像生成领域最知名和最先进的应用工具之一，我们首先以它为例，展开介绍该领域的技术脉络和落地应用趋势。

2.1 Midjourney

什么是Midjourney？

Midjourney是一个基于机器学习的图像生成工具。它可以根据用户提供的文字描述，生成各种高质量的图像。该应用集成了各种前沿的生成AI模型，如CLIP、VQ-VAE等，拥有非常强大的文本到图像生成能力

Midjourney的主要功能和特点有哪些？

文本到图像生成：用户只需要提供一段文本描述，Midjourney就可以自动生成相关图像。它支持生成人物，风景，物品等各类图像
多种图像风格：用户可以指定生成图像的具体风格，如印象派、涂鸦、卡通等。Midjourney支持多种艺术和绘画风格
图像迭代功能：用户可以对生成图片进行迭代，通过添加描述对图像进行修改和完善，使其更贴近用户的想象
快速生成：Midjourney使用了先进的深度学习技术，可以在几秒到一分钟内生成高质量图像。大大提高了图像生成的速度

Midjourney主要涉及哪些技术和算法模型？

Midjourney的核心算法是基于transformer的图像生成模型。主要使用了以下几种技术：

Transformer：Midjourney使用了transformer这种基于注意力机制的神经网络结构，可以捕捉图像的全局上下文信息，生成更加连贯、自然的图像。
Text-to-Image Diffusion Models：Midjourney使用了类似DALL-E的扩散模型(Diffusion Model)算法，可以直接从文本生成高质量的图像。这种模型可以捕捉文本和图像之间的语义关联。
CLIP (Contrastive Language-Image Pre-training)：CLIP通过对大量文本-图像对进行对比学习，可以理解语义相关的文本和图像特征，Midjourney用它来辅助文本到图像的生成。
VQ-VAE-2：这是一种图像压缩算法，Midjourney使用它来表示图像，使学习到的表达空间更连续，有利于Diffusion过程。
Adversarial Training：Midjourney引入了对抗训练，可以生成更加清晰、真实的图像细节，如人脸特征等。
Neural Rendering：Midjourney使用神经渲染技术，可以从三维空间生成二维图像，实现更逼真的场景和照明效果。

我们接下来展开介绍一下其中的几个重点模型：

Transformer

Transformer是一种基于注意力机制的神经网络，在近年来在自然语言处理和计算机视觉领域被广泛使用，也用于图像生成任务中。

Transformer的主要特点是:

引入了自注意力机制(Self-Attention)，可以建模输入序列中的全局依赖，而不是局部的顺序依赖。
完全依赖注意力机制，不使用RNN或CNN结构。
可以并行计算，加速训练速度。

在图像生成领域，Transformer主要提供以下几点作用:

将文本描述转换为图像latent空间的语义向量，为后续生成做准备。利用自注意力机制理解文本语义。
模型文本和图像特征之间的语义关联，为文本到图像生成建立桥梁。如CLIP模型。
对生成过程进行条件控制，使图像符合文本描述的语义。
生成更加全局一致和连贯的图像，减少不自然的问题。
利用其并行计算优势，加速图像生成模型的训练过程。

扩散模型(Diffusion Model)

扩散模型(Diffusion Model)是一种生成式模型，通过逆向的随机扩散过程可以生成高质量的图像或视频。它在最近的条件图像生成中被广泛使用。

扩散模型的主要思想是:

将数据(图像)逐步地加噪声，让它逐步扩散成完全随机的噪声分布。这是模型的正向扩散过程。
然后定义一个逆过程，从完全的随机噪声开始逐步去除噪声，恢复清晰的原始数据，这就是逆向扩散过程。
用神经网络来学习执行逆向扩散的每个去噪步骤。
在生成时，从随机噪声开始，通过学习到的逆向过程逐步恢复生成目标数据。

这样通过将复杂分布分解为多个简单过程来逼近，既能生成高质量数据，也增加了条件控制的能力。

在条件图像生成中，扩散模型的主要优势有:

生成图像质量高，细节丰富，真实感强。
可以进行多级控制，如控制图像内容、风格等。
模型容易训练，可以生成高分辨率图像。

DALL-E 2和Midjourney使用的扩散模型都取得了很好的图像生成效果。它被认为是当前生成式模型的最优选择之一。

Midjourney是如何融合Transformer和Diffusion Model这两种完全不同的模型的？

Midjourney中的图像生成pipeline同时结合了Transformer和扩散模型两种技术，具体来说:

Transformer部分负责文本理解和文本到图像特征的转换。Midjourney使用预训练好的CLIP模型来建立文本和图像特征之间的语义连接，从而实现文本到图像 latent空间的映射。
扩散模型部分则负责从文本对应的latent空间向量生成高质量的图像。Midjourney使用了类似DALL-E的Diffusion模型结构，可以从随机噪声逐步扩散恢复出清晰的图像。
在训练过程中，两者联合进行端到端的学习和优化。文本特征学习图像生成之间的对映关系。
在生成过程中，首先Transformer编码文本，将其转换为图像latent空间的一个点，然后扩散模型从这个点开始，逐步扩散生成最终的图像。

这样，Transformer提供语义理解和映射能力，扩散模型提供生成能力。它们各自发挥优势，共同实现从文本到高质量图像的转换。这种混合结构使Midjourney生成的图像既符合语义描述，又具有视觉真实性。两者紧密结合，形成了Midjourney强大的图像生成引擎

什么是CLIP？该技术是如何应用于图像生成领域的？

CLIP (Contrastive Language-Image Pre-training) 是一种对抗学习的预训练模型，可以学习语言和视觉特征之间的关联，在图像生成中起到重要作用。

CLIP的主要思想是:

输入大规模的文本-图像匹配对作为训练数据。
分别用Transformer编码文本，用CNN编码图像，得到文本和图像的特征向量。
将匹配的文本-图像特征向量拉近，不匹配的推远，进行对比学习。
通过这种对抗训练，学习语义匹配的多模态向量空间。

CLIP的主要应用有:

文本-图像检索，通过向量空间的距离计算语义匹配程度。
提供图像生成模型以语义控制能力，将文本映射到对应的图像向量，指导后续生成。
评价生成图像与文本提示的关联程度，作为生成模型的损失函数。

在Midjourney等条件图像生成模型中，CLIP发挥了极为关键的作用。它为模型提供了将文本语义转换为图像向量的能力，极大提升了图像与文本关联的质量，是实现控制生成的关键组件之一。

除Midjourney外，图像生成领域还有其他知名系统，如Stable Diffusion、DALL-E 2等。我们接下来依次对其进行简要介绍：

2.2 Stable Diffusion

Stable Diffusion是一个非常流行的图像生成AI系统，由Stability AI公司于2022年8月推出。

它与Midjourney一样，可以通过文本提示生成高质量的图像，其所用的核心技术也是Diffusion和CLIP。二者的不同之处主要在于：

开放性：Stable Diffusion是完全开源的，其代码、训练数据集都公开可访问。这使得研究者可以基于它进行扩展和改进。而Midjourney是闭源商业系统，其核心技术细节不透明。
使用方式：Stable Diffusion可以本地部署使用，给用户更大的控制力度。Midjourney需要通过其云平台在线使用，用户上传提示后等待结果返回。
训练数据规模：Stable Diffusion使用了大约4000万张图像进行训练，数据量更广泛。而Midjourney训练数据量在100万量级。更多训练数据可以让模型对概念和场景建模更全面和精确。
生成方式：Midjourney支持用户迭代优化生成图像的功能，可以基于当前结果来调整和改进提示。而Stable Diffusion每次只能生成一张图像。
视觉风格：Midjourney的生成图像通常具有更抽象的艺术风格，形状改变更大。而Stable Diffusion倾向生成更精确逼真的写实风格结果。
其他功能：除图像外，Midjourney还集成了视频和3D模型生成等功能。Stable Diffusion目前主要着眼在静态图像生成上。

2.3 DALL-E 2

DALL-E 2是一个由OpenAI公司开发的AI图像生成系统，于2022年4月发布。它可以根据自然语言描述生成高质量的图像。

DALL-E 2的全名是"Disentangled Representation Artificial Intelligence Luminary - Emotion"，它是OpenAI的GPT-3语言模型和CLIP视觉模型的扩展。它通过训练在图像和文本之间建立联想，能够理解语言描述和图像内容之间的关系。

DALL-E 2的主要功能和优点包括:

根据文本描述生成图像：它可以从简单的单词或短语到详细的句子描述，生成符合描述的新颖图像。
提供图像编辑功能：可以提供初始图像，并用文本指示对图像进行添加、删除或修改，DALL-E 2可以生成编辑后的新图像。
生成高分辨率图像：它可以生成1024x1024像素的高质量图像，细节丰富。

DALL-E 2与Stable Diffusion和Midjourney之间的不同之处主要在于：

数据量：DALL-E 2训练的数据集包含超过250亿对文本和图像，远远超过其他两个系统。大量的数据使其生成图像的质量和细节更丰富。
尺寸支持：DALL-E 2的图像可以达到1024x1024像素，细节清晰丰富，而Midjourney最大只能生成512x512的图像。
访问限制：DALL-E 2目前还有访问数量限制。而Stable Diffusion和Midjourney则开放了几乎无数量限制的API或平台供用户使用。

2.4 增强组件

以上介绍的Midjourney、Stable Diffusion和DALL-E 2都是图像生成领域的知名系统应用。除了这些基础大模型外，还有一些辅助工具也在条件图像生成 & 图像编辑领域起到了不可或缺的作用。这里简要介绍其中的几个重要项目：

ControlNet

ControlNet是一种用于图像生成的神经网络结构。它的主要作用是提供更多的控制，使得生成过程更稳定和可控。

ControlNet由两部分组成:

生成器(Generator)：这是一个标准的生成网络，输入是随机噪声向量，输出是生成的图像。生成器负责学习图像的分布和生成新样本。
控制器(Controller)：控制器的输入是我们希望在生成图像中体现的某些特征或属性，例如对象的位置、姿态、颜色等。控制器的输出会调整生成器的内部表示，引导其生成符合控制目标的图像。

ControlNet的关键创新在于引入了控制器，使得生成过程不再是纯随机的，而是可以针对特定目标进行控制。例如，我们可以指定生成一个在画面左侧的红色汽车，ControlNet就会生成符合这个描述的图像，而不是任意的图像。

相比于纯生成网络，ControlNet生成的样本质量更高，更符合预期。它使生成模型对所学视觉概念有更精细的控制，是多模态生成的重要方法之一。ControlNet广泛用于条件图像生成、图像编辑等任务中。

Pose/布局模型

Pose模型主要是估计人物在图像中的姿态信息，常见的有2D身体姿态(体积框、关键点)或3D身体姿态表示。给定一个人物图片，Pose模型可以预测出人物的关键身体点(如关节位置)或身体部位的3D坐标信息。

而场景布局模型是理解图像中的场景结构，如检测不同对象实例，估计它们的类别、位置和尺寸信息。一些工作还会建模对象间的关系，如相对位置、接触和支撑关系等。

有了姿态和布局信息，就为图像生成和编辑提供了重要先验知识。例如:

根据姿态合成人物不同动作图片。
将人物移动到图像其他位置时，合理调整其姿态。
根据场景布局生成符合物理规则的合成场景。
在编辑过程中保持场景结构和对象关系一致。

所以Pose/布局模型为下游任务提供关键的语义理解，是图像条件生成和编辑系统的标准组成部分，与其他像GAN、VAE等生成网络技术一起提升了系统的智能性和控制能力。它们在语义级图像操作中发挥着至关重要的作用。

2.5 视频生成

视频生成领域基于AI和深度学习的知名应用包括:

Vid2Vid：Vid2Vid是NVIDIA在2018年提出的一个视频到视频的生成模型，可以进行风格迁移，将一种风格的视频转换为另一种风格。通过这种风格迁移的生成过程，Vid2Vid可以实现动漫到真人视频，简笔画到真人视频等转换，对视频生成 Tasks 有很好的支持。
DeepFake：DeepFake是一种视频生成技术，它可以通过深度学习等机器学习方法创建或合成视听觉内容，如图像、音视频、文本等。它最广为人知的一种应用形式是AI换脸，即用另一个人脸来替换一张图片或视频中的一个人脸，合成新的视频。该技术发布后引发了较大争议，因为它存在被用来制作虚假新闻、欺骗性广告和诽谤性内容的风险。

目前，主流的视频生成模型如VideoGAN、MoCoGAN还停留在较短的低分辨视频生成上。因此，与图像生成相比，AI和DeepLearning技术在视频生成领域的应用略显滞后，这是由多个复杂的因素导致的，包括：

图像生成已经有了较为成熟的技术，如GAN、VAE等，而视频生成的技术与方法还处在不断探索的阶段。
视频生成需要处理时间维度上的连贯性，增加了技术难度。基于图像的方法扩展到视频上效果并不理想。
视频数据复杂，包含音频、语义等多种信息。目前视频生成模型主要只关注视觉信息，对其他modal的建模还比较薄弱。
视频生成的训练数据规模和质量还比较有限，大量高质量、连贯的视频数据是视频生成模型进一步发展的瓶颈。
计算资源需求大，高分辨视频的生成需要消耗大量算力，增加了模型迭代和验证的难度。

3 三维模型

三维模型生成通常指使用计算机算法自动生成三维形状和模型的过程。三维模型广泛应用于电子游戏、动画电影、虚拟现实等领域。

传统的三维模型生成方法主要依赖设计师手工建模，这种方法往往费时费力。深度学习为三维模型的自动生成提供了新的思路。

深度学习中的生成对抗网络(GAN)近年来在三维模型生成方面展现出强大能力。GAN中的生成器可以学习三维数据的分布，并生成新的三维数据。同时鉴别器负责判断生成的数据是否真实。在这种对抗过程中，生成器学习越来越逼真的三维数据分布。

除了GAN，扩散模型(Diffusion Model)也可用于三维模型的生成。与GAN相比，扩散模型生成的三维模型细节更丰富，质量更高。近年来，扩散模型在自动生成三维人脸、人体、室内场景方面展现了强大的潜力。随着模型能力的提升，扩散模型有望产生更逼真的三维模型，并应用于更广泛的领域。

近期，三维模型生成和编辑领域下的一项重要工作是英伟达在2022年底发布的Magic3D，该技术允许用户通过简单的文本提示来创建和编辑3D图像和场景。通过Nivida发布的论文，我们可以了解到：

Magic3D采用了Transformer结构作为文本编码器，以捕捉文本中的语义信息。
为生成高分辨率3D内容，Magic3D使用了Diffusion模型来逐步还原添加高斯噪声后的场景。
Magic3D可以从文本描述中生成complex 3D场景，包含多个交互对象，具有丰富的细节和照明效果。
生成的3D场景可导出为通用格式，用于后期渲染和可交互性添加。

4 语音合成

语音合成(Speech Synthesis)指使用机器生成自然语音的技术。随着深度学习在语音合成领域的应用，AI语音合成技术取得了长足的进展。目前，知名的AI语音合成系统包括:

WaveNet：该模型由Google在2016年提出，使用卷积神经网络对语音波形进行像素级建模，可以生成更自然的语音。WaveNet开创了语音合成的新纪元。
Tacotron：该模型由Google在2017年提出，将文本转语音任务分解为文本分析、音素预测和波形生成三个子任务，使用序贯模型完成端到端的语音合成。
Transformer TTS：基于Transformer的语音合成技术，可以捕捉长程依赖关系，生成更连贯的语音。相较于RNN，Transformer TTS能够并行计算，训练速度更快。
GAN-TTS：将GAN引入语音合成，通过鉴别器对抗训练使生成语音更加自然。代表工作有MelGAN、StyleGAN-Vocoder等。

语言合成与图像合成类似，都有形如“Encoder-Decoder”的结构，Encoder端通常是VAE，该技术可以将预定义的语音参数特征转换成Embeddings。近年来，业界也开始采用Transformer作为Encoder，这样用户可以直接用自然语言作为输入数据，以实现更灵活的语音编辑和条件语音合成。

在输出端（Decoder），常用的模型包括GAN和Diffusion。这两种模型在图像生成章节我们都已接触过了。值得注意的是：和Diffusion模型比起来，GAN模型在语音合成领域的使用会更加普遍。造成该结果的主要因素包括：

GAN早于Diffusion模型被提出和应用，在语音合成领域也有更长的研发积累。早期工作如WaveGAN已展示了GAN在语音合成中的潜力。
GAN的训练过程更加稳定，对计算资源需求也较低，这降低了语音合成研究的门槛。而Diffusion模型计算开销大，需要较长的训练时间。
GAN更易于融合额外条件信息，实现情感、语调等多样语音风格的控制生成。
GAN生成的语音样本质量已较高，多数场景可以满足需求。故较少研究投入训练时间更长的Diffusion模型。
Diffusion模型在语音合成上的探索还比较初期，存在训练不稳定等问题有待进一步研究。模型设计也需要针对语音的数据特点进行优化。

5 附录

Reference

posted @ 2023-07-20 00:15 云野Winfield 阅读(500) 评论(0) 编辑收藏举报

刷新页面返回顶部

Loading

云野Winfield

抓住本质，看大做小，持之以恒