Stable Diffusion（二）WebUI使用指南

1. 前言

基于 https://stable-diffusion-art.com/ 内的教程进行翻译与整理，帮助快速上手 stable-diffusion 的使用。

2. 环境

AWS DeepLearning AMI

3. 部署Stable Diffusion web UI

Web UI github：

https://github.com/AUTOMATIC1111/stable-diffusion-webui

SD web UI提供了一站式的SD工具，功能非常全面。

部署：

bash <(wget -qO- https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh)

Model loaded in 14.5s (calculate hash: 11.3s, load weights from disk: 0.2s, create model: 0.8s, apply weights to model: 0.3s, apply half(): 0.2s, load VAE: 1.1s, move model to device: 0.6s).

Running on local URL: http://127.0.0.1:7860

之后遍自动部署了监听本地7860端口的webui。其中所有相关文件均在stable-diffusion-webui下。

由于需要外网访问，所以需要使用--listen的启动参数：

./webui.sh --listen

启动命令参考：

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Command-Line-Arguments-and-Settings

启动后的界面，可以看到默认是v1-5-pruned-emaonly的模型：

3.1. stable diffusion v1-5-pruned-emaonly

根据huggingface的介绍，v1-5-pruned 版本是基于 v1-2 版本fine tune得到，提升了CFG采样：

https://huggingface.co/runwayml/stable-diffusion-v1-5

在介绍文档里，可以看到，权重分为2种：

v1-5-pruned-emaonly.ckpt - 4.27GB, ema-only weight. uses less VRAM - suitable for inference
v1-5-pruned.ckpt - 7.7GB, ema+non-ema weights. uses more VRAM - suitable for fine-tuning

可以看到emaonly的区别在于：它的规模更小，使用更少的显存，适合做推理。而ema+non-ema的规模更大，使用更多显存，适合做调优。

Checkpoint文件就是Stable Diffusion的权重。

4. 添加inpainting模型

可以将下载的Stable Diffusion模型放在目录stable-diffusion-webui/models/Stable-diffusion/ 下。

例如，假设我们要做inpaint的调整。先在huggingface下载stable-diffusion-inpainting的checkpoint：

https://huggingface.co/runwayml/stable-diffusion-inpainting

并存放在stable-diffusion-webui/models/Stable-diffusion/ 下。

而后我们在web UI 刷新checkpoint目录即可：

使用时，在 img2img 的 Inpaint 部分上传图片，并使用鼠标进行遮盖。然后输入prompt 词，即可替换遮盖内容。

4.1. inpainting参数解释

在做inpainting时，相关参数解释为：

Denoising strength：控制最终图片与初始图片的变化程度。设置为0则表示不修改任何东西，设置为1表示大幅修改

CFG scale：与文生图中的CFG类似，表示生成的图片要follow prompt的程度
- 1：基本忽略prompt
- 3：带些创造性
- 7：创造性与prompt之间的一个较好的平衡
- 15：紧跟prompt提示走
- 30：完全follow prompt
Masked content：控制覆盖的区域如何初始化
- Fill：使用原图的高模糊图作为初始化
- Original：无修改
- Latent noise：先使用fill的模式对masked区域做初始化，然后再加入随机噪点到latent 空间
- Latent nothing：与latent noise类似，但是不加入随机噪点

下图是sampling之前的Masked content，便于大家理解：

4.2. inpainting技巧

Inpainting是个精细化，需要不断地调整，下面是一些常规的建议：

一次做一个较小的区域
设置masked content为Original，并调整denoising strength，基本满足90%的场景
调整masked content，看看哪个最终效果最好
如果webui的所有配置最终都不太好，则先在ps里把目标位置的形状与颜色调好，然后再做inpainting

5. 使用ESRGAN放大结果图片

使用SD模型最终生成的图片大小为512 x 512。一般来说，这种程度是不够清晰的。我们可以使用AI upscaler来放大图片，例如ESRGAN。它是一个独立的工具，用于放大SD模型生成的图片。

例如，对于生成后的图片，可以点击“Send to extras”，然后进入到Extras界面。

而后，即可在界面选择R-ESRGAN 4x+的Upscaler，并进行放大。Resize可选为倍数，例如2倍就是1024 x 1024（原始图为512 x 512）。

5.1. Upscaler常规选项

l LDSR：Latent Diffusion Super Resolution。是与stable diffusion 1.4共同发布的，专门做SD图片放大的模型。虽然可以生成高质量的放大图，但是速度非常慢，不推荐
ESRGAN 4x：Enhanced Super-Resolution Generative Adversarial Network。在2018年的Perceptual Image Restoration and Manipulation challenge上获奖的网络。是对前任SRGAN模型的增强。擅长保留很好的细节，并生成清晰的图像
R-ESRGAN 4x：Real-ESRGAN，是对ESRGAN的增强，可以恢复各种各样的真实世界图片。它对相机镜头和数字压缩产生的不同程度的失真进行建模。相对于ESRGAN，擅长产生更平滑的图片。对于真实照片非常擅长

R-ESRGAN对于真实照片与图片的效果非常好。动画图片的放大需要特定的预训练的模型，才可以工作地更好。可以访问Upscaler model database 下载其他upscaler。

5.2. 安装新的upscaler

安装新的upscaler时，只需要从Upscaler model database下载新的模型并放在文件夹stable-diffusion-webui/models/ESRGAN即可。

6. 安装Stable Diffusion 2.0

SD 2.0 使用了更大的text encoder（可以提升图片质量），并调整默认图片大小为768 x 768像素。

首先在huggingface下载stable-diffusion-2版本：

https://huggingface.co/stabilityai/stable-diffusion-2

并放入目录stable-diffusion-webui/models/Stable-diffusion/ 下：

wget https://huggingface.co/stabilityai/stable-diffusion-2/resolve/main/768-v-ema.ckpt

然后即可在web UI里进行使用。

6.1. 使用SD 2.0

由于SD 2.0 是在 768 x 768 的图片上生成的，所以确保设置的width与height同样为768。一般使用DPM++2M Karras 采样器 + 30个采样步，可以满足大部分场景。

6.2. SD v1与v2版本的区别

在转换SD v1 到v2时，需要注意的点：

v1生成的图片大小为512 x 512，v2生成的图片大小为768 x 768。虽然v2设计为可以生成512 x 512 以及 768 x 768 的图片，但是早期测试看起来512 x 512的图片不够好
不要在v2里复用v1的prompt。在v1里表现很好的prompt可能在v2里不太适用。这个结果也是合理的，因为v2使用了更大的OpenClip H/14的分词器（差不多是v1模型的6倍）。并且是从头开始训练的。
v2的图片一般更真实。例如“Ink drips portrait”，在v2里更真实，而在v1里更有艺术感
如果一定要用v1的prompt，可以使用prompt converter来做转换。它的工作原理是：先用v1的prompt生成图，然后使用CLIP interrogator 2从图中提取prompt词。它可以高效地给出模型如何描述图片的词汇
使用更长的prompt（更多的prompt词），以及更明确的描述，在v2里更为适用

总的来说：SD 2.0可以生成更高质量的图片，并更符合prompt词的结果。

7. Fine Tune

Fine tune可以让模型更定制化。对SD模型来说，较为常见的fine tune方式为Dreambooth。Dreambooth最初由谷歌开发，它的原理是将自定义的subject插入到“文生图”的模型中。只需要3-5张的自定义图片即可正常运行。我们可以拍几张自画像，并使用Dreambooth把自己放入模型。使用Dreambooth训练好的的模型需要特定的keyword来告知模型。

另一个并不太热门的调优方法叫textual inversion（有时候也叫embedding）。它的目标与Dreambooth类似：插入一个用户自定义的subject到模型中，同样也只需要少量样本即可。对于新的对象，会创建一个新的keyword。在训练时，仅有text embedding层的网络做fine tune，其他部分保持原样。用外行的话来说，这就像用现有的单词来描述一个新的概念。

使用 Dreambooth 进行 fine-tune，以及使用 LoRA 模型的方式，请参考文档：

Stable Diffusion（三）Dreambooth finetune模型 - ZacksTang - 博客园 (cnblogs.com)

7.1. 调优过的SD模型

有很多模型已经是经过SD fine tune得来，包括SD v1.5。

以下模型均由SD v1调优得来：

l F222：本来是用来训练生成裸体，但是后来发现在生成漂亮女性画像时很有帮助，并且身体部位的关系也非常正确。比较适合生成很美的服装。F222适合肖像画，但是它有较高的倾向生成裸体。可以在提示中包括“连衣裙”和“牛仔裤”等衣服的关键词来避免此情况

下载地址：https://huggingface.co/acheong08/f222/blob/main/f222.ckpt

l Anything V3：专门训练用于生成高质量的动漫风格的图片。可以在prompt里使用danbooru tags（例如lgirl，white hair）。可以用于将名人转为动漫的风格，然后可以无缝地与虚拟元素进行融合。一个缺点是可能会生成不相称的身体结构，一般可以用F222来进行调整

下载地址：https://huggingface.co/Linaqruf/anything-v3.0/resolve/main/anything-v3-fp16-pruned.safetensors

还有些比较有趣的模型：

l DreamShaper：用于人像插画风格，介于照片与计算机图片之间。

模型地址：https://civitai.com/models/4384/dreamshaper

l ChiloutMix：专门用于生成照片级质量的亚洲女性，可以理解为亚洲版的F222。使用韩国embedding ulzzang-6500-v1生成女性（例如k-pop）。与F222一样，容易生成裸体，需要把衣服例如dress，jeans放在prompt里，nude放negative prompt里

模型地址：https://civitai.com/models/6424/chilloutmix

l Waifu-diffusion：日本动漫风格

模型地址：https://huggingface.co/hakurei/waifu-diffusion

有2个地方可以找到更多模型：hugging face与civitai（https://civitai.com）

7.2. SD 2.0问题

在SD v2版本后，社区里发现2.0生成的图片效果不太好。同时也发现名人以及艺术家的名字作为prompt，效果也不太明显。后续在2.1版本里部分解决了这些问题，图片生成的更好了，且更容易生成艺术家的风格。

到目前为止，大部分人还没有完全转移到2.1版本模型，而是仍投入在v1模型的调优中。如果我们希望尝试v2模型，建议先检查这些tips避免遇到一些常规的问题。

8. 模型融合

可以在WebUI的Checkpoint Merger里对两个模型进行融合，例如：

下图是使用F222与Anything V3融合后（权重各位0.5）生成的效果图：

9. 将人转卡通风格

使用2个模型，F222以及Anything V3。

先使用F222模型生成一张人像图，图片大小为512×704，使用prompt：

a young female, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light

Negative prompt：

disfigured, ugly, bad, immature

生成的例如：

然后送往img2img，使用模型anything V，以及prompt词：

nvinkpunk A woman sitting outside

　　　　　　　　　　　　　　　　　　　　　nvinkpunk（denoising 0.4） Anything V3（denoising 0.5）

这里主要是denoising strength要调整，越高与原图越不符合。

10. 使用VAE提升眼睛与脸的表现

VAE是对Stable Diffusion 1.4 或 1.5的一个部分更新（可以理解为插件），让模型生成人脸中的眼睛效果更好。

10.1. 什么是VAE

VAE = variational autoencoder（变化的自动编码器）。它是神经网络的一部分，用于将图片编码到latent space，以及从latent space中恢复成图片。这么做的目的，是因为latent space空间更小，计算速度更快。

10.2. 我是否需要VAE

我们不需要为SD再安装VAE文件，它们都自带了默认的VAE。

在提到使用VAE时，表示是使用了一个“更优的版本”。一般是模型调优的人使用额外的数据fine-tune了VAE部分，然后替换这部分。

10.2. VAE有什么作用

一般来说，它的作用比较小。一个优化过的VAE可以在将图片从“潜空间”解码时效果更好，可以恢复更多的细节。例如可以有助于渲染眼睛，以及文本（图片里生成的文本）的细节。

Stability AI发布了2个fine-tuned VAE解码器的变种：EMA（Exponential Moving Average）与MSE（Mean Square Error）。这两个本质的含义是用来评估autoencoders好坏的指标。

下面对比了使用不同VAE 产生的结果：

https://huggingface.co/stabilityai/sd-vae-ft-ema#visual

那我们应该使用哪个？根据Stability在256 x 256 图片上做的测试，EMA生成的图片更sharper，而MSE的图片更smoother：

https://huggingface.co/stabilityai/sd-vae-ft-ema#decoder-finetuning

总的来说，EMA与MSE对生成图片的细节（例如眼睛）有帮助，但是对于生成图片上文字的细节帮助有限。

11. Negative Prompt

11.1. Negative Prompt的使用

先看一个negative prompt的例子，使用SD v1.5模型。

首先不用negative prompt 生成图片：

Portrait photo of a man

可以看到都是带胡子的男性。然后我们在prompt里试试把胡子去掉：

Portrait photo of a man without mustache

可以看到，并没有什么用：

这里便是positive prompt里明显的问题，无法排除掉一个特征。其罪魁祸首看起来像是cross attention未将without和mustache两个单词关联起来。而SD模型清楚的明白“man”与“mustache”所代表的含义，因此结果图片包含了这2种特征。

因此，如果要生成没有胡子的男性，则需要把mustache放在negative prompt中。最终生成的图片为：

11.2. Negative Prompt的工作原理

在SD执行流程中，prompt会转为embedding向量，并送入到U-Net noise predictor中。不过，实际上这里会有2组embedding vectors，一个是positive prompt，一个是negative prompt。两者的地位是平等的，都是最高77个token，使用时也可以仅使用其中1个。

Negative prompt是在samplers（采样器，也就是实现反向扩散的算法部分）里实现的。为了理解negative prompts是如何工作的，我们首先看看没有negative prompts时，sampling是如何工作的。

11.3. 没有Negative Prompt时的采样

在SD的采样步骤中，算法首先使用conditional sampling（由text prompt指导）移除图片的一些噪点。然后采样器对同样的图片使用unconditional sampling（也就是不用text prompt指导）移除一些噪点。需要注意的是，扩散过程仍会朝着“好”的图片进展，例如下面的篮球与玻璃的例子，但是可以是任何东西。扩散步骤实际做的是：在conditional与unconditional采样之间的差别。然后这个过程重复指定的“采样步数”。