Stable Diffusion 术语表

Stable Diffusion 术语表

说明

原文地址:https://theally.notion.site/The-Definitive-Stable-Diffusion-Glossary-1d1e6d15059c41e6a6b4306b4ecd9df9

文中术语来自以上地址翻译中文版

术语 标签 描述
.ckpt 模型 发音为“checkpoint”,是一种由 PyTorch Lightning(PyTorch 研究框架)创建的文件格式。它包含一个 PyTorch Lightning 机器学习模型(通过 Stable Diffusion)用于生成图像。
.pt 软件 使用PyTorch 创建的机器学习模型文件,包含用于自动执行任务的算法。
.Safetensors 模型 用于检查点模型的文件格式,不太容易受到嵌入式恶意代码的影响。参见“Pickle”
AGI 概念 通用人工智能(AGI),人工智能达到或超过人类智能的程度。
API 软件 应用程序编程接口-一组函数和工具,允许与软件片段或在软件片段之间进行交互。
Auto-GPT 软件 LLM
Automatic1111 开发 SD用户界面 社区名人,流行的 SD WebUI 图形用户界面的创建者。
Bard 软件 谷歌的聊天机器人,基于他们的 LaMDA 模型。
Bing 软件 Microsoft 的 ChatGTP 支持聊天机器人。
CFG 设置 分类器自由指导,有时是“Guidance Scale”。控制图像生成过程遵循文本提示的程度。
Checkpoint 模型 这是对从网络上多个来源抓取的数百万张带字幕图像进行训练的产物。该文件驱动Stable Diffusion的txt2img、img2img、txt2video
Civitai (Civitai.com) 社区资源 检查点模型、Hypernets、文本反转 Embeddings 的托管站点。美学渐变和VAE文件。
CLIP 软件 OpenAI 创建的开源模型。经过数百万张图像和标题的训练,它决定了特定标题描述图像的程度。
Cmdr2 开发 SD用户界面 社区名人,流行的 EasyDiffusion 一键安装 SD 图形用户界面的创建者。
CodeFormer 人脸/图像恢复 面部图像修复模型,用于修复模糊、颗粒状或毁容的面部。
Colab 社区资源 组织 Colaboratory,谷歌研究的一个产品,允许 通过浏览器执行Python代码。特别适合机器学习应用。https://colab.research.google.com/
ComfyUI SD用户界面 一个流行的强大的模块化 UI,用于稳定扩散,具有“工作流”类型的工作空间。比 Auto1111 WebUI 更复杂 https://github.com/comfyanonymous/ComfyUI
CompVis 组织 慕尼黑路德维希马克西米利安大学计算机视觉与学习研究小组。他们在 Hugging Face 上托管稳定扩散模型。
Conda 应用 软件 适用于多种编程语言(包括 Python)的开源包管理器。
ControlNet 用户界面扩展 Auto1111 WebUI 的扩展,允许以多种方式操作图像。 https://github.com/Mikubill/sd-webui-controlnet
Convergence 概念 随着图像生成过程中步骤的增加,图像开始看起来越来越相似。Convergence 是图像生成中图像不再随着步长的增加而变化的点。
CUDA 硬件 软件 计算统一设备架构,Nvdia 的并行处理架构。
DALL-E / DALL-E 2 组织 由 OpenAI 创建的深度学习图像模型,可作为商业图像生成服务使用。
Danbooru Tag 社区资源 应用于 Danbooru 图像的关键字系统,描述其中的内容。当使用在 Danbooru 图像上训练的 Checkpoint 模型时,您可以在提示中引用这些关键字。
DDIM (Sampler) 采集器 去噪 Diffusion 隐式模型。请参阅采样器。
Deep Learning 概念 机器学习的一种,神经网络试图模仿人脑的行为来执行任务。
Deforum 社区资源 界面扩展 一个由人工智能图像合成开发人员、爱好者和艺术家组成的社区,生产生成式人工智能工具。最常见的是同名的 Stable Diffusion WebUI 视频扩展。
Denoising/Diffusion 概念 将随机噪声(参见 Seed)迭代减少到最终图像的过程。
depth2img 概念 推断输入图像的深度(使用现有模型),然后使用文本和深度信息生成新图像。
Diffusion Model (DM) 模型 生成模型,用于生成与训练数据类似的数据。
DPM adaptive (Sampler) 采集器 扩散概率模型(Adaptive 自适应)。请参阅 Samplers(采样器) 。忽略步数。
DPM Fast (Sampler) 采集器 扩散概率模型(Fast快速)。请参阅 Samplers(采样器)
DPM++ 2M (Sampler) 采集器 扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。
DPM++ 2M Karras (Sampler) 采集器 扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。
DPM++ 2S a Karras (Sampler) 采集器 扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。
DPM++ 2Sa (Sampler) 采集器 扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。
DPM++ SDE (Sampler) 采集器
DPM++ SDE Karras (Sampler) 采集器
DPM2 (Sampler) 采集器
DPM2 a (Sampler) 采集器
DPM2 a Karras (Sampler) 采集器
DPM2 Karras (Sampler) 采集器
DreamArtist 软件 界面扩展 SD 用户界面 WebUI的一种扩展,允许用户创建经过训练的嵌入,以将图像定向到特定的样式或图形。研究论文DreamArtist:towards Contrastive One Shot Text-to-image Generation via Contractive Prompt Tuning的PyTorch实现,董子怡,魏鹏旭,林亮。
DreamBooth 社区资源 界面扩展 软件 DreamBooth 由 Google 研究人员开发,是一种深度学习图像生成模型,旨在微调现有模型(检查点)。可用于基于一组图像创建自定义模型。
DreamStudio 组织 Stability AI 使用 Stable Diffusion 模型创建的基于网络的商业图像生成服务。
EMA 模型 指数移动平均线。完整的 EMA 检查点模型包含推理(生成图像)不需要的额外训练数据。完整的 EMA 模型可用于进一步训练检查点。
Emad 组织 开发 Emad Mostaque,Stability AI 的首席执行官兼联合创始人,该公司是 Stable Diffusion 背后的公司之一。
Embedding 概念 其他文件输入可帮助指导扩散模型生成与提示匹配的图像。可以是图形样式、人或物体的表示。请参阅 Textual InversionAesthetic Gradient。 支持链接
Entropy 概念 随机性或无序性的度量。 支持链接
Epoch 概念 模型训练过程查看完整图像数据集的次数。例如。检查点模型的第 5 个 Epoc 对同一图像数据集进行了五次查看。
ESRGAN 界面扩展 Upscaler 增强的超分辨率生成对抗网络。一种从较低分辨率图像重建较高分辨率图像的技术。例如。将 720p 图像升级为 1080p。作为 WebUISD UI 中的工具实现。
Euler (Sampler) 采集器 以 Leonhard Euler 命名,是一种求解常微分方程的数值过程,请参阅采样器。
Euler a (Sampler) 采集器 欧拉采样器的祖先版本。以 Leonhard Euler 命名,是一种求解常微分方程的数值过程,请参阅采样器。
f111 模型 Zeipher AI 的流行检查点模型。产生优秀的女性形态,NSFW。
f222 模型 Zeipher AI 的流行检查点模型。产生优秀的女性形态,NSFW。
float16 设置 模型 半精度浮点数。请参阅链接。
float32 设置 模型 全精度浮点数。请参阅链接。
Generative AI 概念 软件 人工智能的一种形式,可以使事物(图像、文本、音频、视频等)
GFPGAN 人脸/图像恢复 Generative Facial Prior,一种面部修复模型,用于修复模糊、颗粒状或毁容的面部。
Git (GitHub) 应用 软件 用于软件开发、版本控制、错误跟踪、文档的托管服务。
GPT-3 模型 生成式预训练 Transformer 3,一种语言模型,使用机器学习根据初始提示生成类似人类的文本。
GPT-4 模型 生成式预训练 Transformer 4,一种语言模型,使用机器学习根据初始提示生成类似人类的文本。与 GPT 3/3.5 相比,性能和推理能力有了巨大飞跃。
GPU 硬件 图形处理单元,一种设计用于执行快速数学计算的处理器,允许其渲染图像和视频以进行显示。
Gradio 软件 基于网络浏览器的界面框架,专门用于机器学习应用程序。 Auto1111 WebUI 在 Gradio 界面中运行。
Hallucinations (LLM) AI LLM 概念 有时,像 ChatGPT 这样的 LLM 模型会产生听起来似乎有道理但实际上毫无意义或完全错误的信息。这称为幻觉。
Hash (Checkpoint model) 模型 概念 一种验证文件完整性的算法,通过生成所述文件的唯一字母数字字符串。检查点模型是哈希的,生成的字符串可以用于标识该模型。例如,Ally 的混合总是哈希c77ef05d。
Heun (Sampler) 采集器 以 Karl Heun 命名,是一种求解常微分方程的数值过程。请参阅采样器。
Hugging Face 组织 一个社区/数据科学平台,提供构建、训练和部署机器学习模型的工具。
Hypernetwork (Hypernet) 模型 一种根据自身内容(无需外部数据)引导 Checkpoint 模型走向特定主题、对象或角色的方法。
img2img 根据输入图像和 txt2img 提示生成新图像的过程。
Inpainting 设置 概念 基于绘制的蒙版删除或替换图像中的对象的做法。
LAION 组织 一个非营利组织,为机器学习研究提供数据集、工具和模型。
LAION-5B 模型 用于研究目的的大型数据集,由 58.5 亿个 CLIP 过滤的图像文本对组成。
Lanczos 设置 Upscaler 用于计算采样数据的新值的插值方法。在本例中,用于升级图像。以创始人科尼利厄斯·兰佐斯 (Cornelius Lanczos) 的名字命名。
Large Language Model (LLM) LLM AI 一种学习书写和与用户对话的神经网络。经过数十亿篇文本的训练,LLM擅长生成连贯的句子,并在正确的上下文中回答提示。他们可以执行诸如重写和总结文本、谈论各种主题和进行研究等任务。
Latent Diffusion 模型 一种扩散模型,包含压缩图像表示而不是实际图像。这种类型的模型允许存储大量数据,编码器可以使用这些数据从文本或图像输入重建图像。
Latent Mirroring 概念 界面扩展 将镜像应用于生成中期的潜像,以产生从微妙平衡的构图到完美反射的任何效果。
Latent Space 概念 信息密集的空间,扩散模型的图像表示、注意力和变换被合并,形成扩散过程的初始噪声。
LDSR 设置 Upscaler 潜在扩散超分辨率升级。一种增加图像尺寸/质量的方法。
Lexica 社区资源 Lexica.art,稳定扩散艺术和提示的搜索引擎。
LlamaIndex (GPT Index) LLM 软件 https://github.com/jerryjliu/llama_index - 允许通过生成的“索引”将文本数据连接到 LLM。
LLM LLM 一种学习书写和与用户对话的神经网络。经过数十亿篇文本的训练,LLM擅长生成连贯的句子,并在正确的上下文中回答提示。他们可以执行诸如重写和总结文本、谈论各种主题和进行研究等任务。
LMS (Sampler) 采集器
LMS Karras (Sampler) 采集器
LoCON 模型
LoRA 模型 概念 Low-Rank Adaptation,一种 SD 训练方法,很像文本反转。与传统的微调相比,可以捕捉风格和主题,在更短的时间内使用更小的输出文件产生更好的结果。
Merge (Checkpoint) 模型 将检查点模型组合(合并)以形成新模型的过程。根据合并方法(参见加权求和、Sigmoid)和乘法器,合并模型将保留其组成模型的不同特征。
Metadata 概念 软件 元数据是描述数据的数据。在稳定扩散的上下文中,元数据通常用于描述提示、采样器设置、CFG、步骤等,这些用于定义图像,并存储在 .png 标头中。
MidJourney 组织 一种基于网络的商业图像生成服务,类似于 DALL-E,或免费、开源的 Stable Diffusion。
Model 模型 检查点的替代术语
Negative Prompt 设置 告诉稳定扩散的关键字会提示我们在生成的图像中不希望看到的内容。
Neural Network 概念 软件 数学系统的作用类似于人脑,具有多层人工“神经元”,有助于发现数据之间的联系。
Notebook 社区资源 参见 Colab。 Jupyter 笔记本服务免费提供对包括 GPU 在内的计算资源的访问。
NovelAI (NAI) 组织 一项基于付费、订阅的人工智能辅助故事(文本)写作服务。还有一个 txt2img 模型,该模型已被泄露,现在已合并到许多稳定扩散模型中。
Olivio (Sarikas) 社区资源 Olivio 在 YouTube 上制作精彩的标清内容 (https://www.youtube.com/@OlivioSarikas) - 最好的SD 新闻 YouTuber 之一!
OpenAI 组织 人工智能研究实验室由营利性公司 OpenAI LP 和非营利性 OpenAI Inc. 组成。
OpenPose 模型软件 一种从人的图像中提取“骨架”的方法,允许姿势从一个图像转移到另一个图像。由 ControlNet 使用。
Outpainting 设置 概念 将图像的外边框延伸到空白画布空间,同时保持图像的风格和内容的做法。
Parameters (LLMs) 概念 软件 大型语言模型训练数据中的数值点。参数决定了模型执行任务的熟练程度。例如。 6B(十亿)参数模型的性能可能不如 13B 参数模型。
Pickle 软件 概念 社区俚语,指隐藏在模型和嵌入中的潜在恶意代码。 “pickled”是指在您的计算机上执行不需要的代码(被黑客攻击)。
PLMS (Sampler) 采集器 预先训练的语言模型。请参阅采样器。
Prompt 设置 稳定扩散的文本输入描述您想要输出的图像的细节。
Pruned 模型 一种优化检查点模型以提高推理速度(提示生成)、文件大小和 VRAM 成本的方法。
Python 应用 一种流行的高级通用编码语言。
PyTorch 应用 由 META 创建的开源机器学习库。
Questianon 社区资源 开发 流行的 SD Resource Goldmine 的作者 - https://rentry.org/sdupdates
Real-ESRGAN 缩放 一种图像恢复方法。
SadTalker 采集器 https://github.com/OpenTalker/SadTalker 基于音频输入的面部动画/唇形同步框架。
Sampling Steps 采集器 生成(diffusing)图像所需的步骤数。
SD 1.4 模型 潜在的 txt2img 模型,SD 发布时的默认模型。在 laion-aesthetics v2 数据集上以 512x512 分辨率对 225k 步骤进行微调。
SD 1.5 模型 潜在的 txt2img 模型,1.4 的更新版本,在 laion-aesthetics v2 数据集上以 512x512 分辨率进行了 595k 步的微调。
SD UI 应用 Cmdr2 流行的稳定扩散提示图形界面的通俗术语。
SDXL 模型 Stability AI 最新(2023 年 3 月)的 Stable Diffusion 模型。不可离线使用;只能通过某些订阅网站进行推理。
Seed SD用户界面 概念 用于初始化随机噪声生成的伪随机数,从中构建最终图像。可以保存种子并将其与其他设置一起使用以重新创建特定图像。
Shoggoth Tongue 概念 LLM “Shoggoth Tongue”幽默地暗指克丘鲁神话中虚构怪物的语言,是高级ChatGPT命令的名称,这些命令特别晦涩难懂,但允许ChatGPT在系统预期操作之外执行高级操作。
Sigmoid (Interpolation Method) 模型 一种基于 Sigmoid 函数(一种产生“S”形曲线的数学函数)合并检查点模型的方法。
Stability AI 组织 由 Emad Mustaque 共同创立的人工智能技术公司。SD 背后的公司之一。
Stable Diffusion (SD) 组织 2022 年发布的深度学习文本到图像模型。它主要用于根据提供的文本描述生成详细图像。
SwinIR 人脸/图像恢复 图像恢复变换,旨在从低质量图像中恢复高质量图像。
teachyou.ai 社区资源 TheAlly 的 Patreon 的备用链接(此列表的作者!)
Tensor 软件 一个容器,可以在其中存储多维数据。
Tensor Core 硬件 Nvidia 开发的处理单元技术,旨在执行矩阵乘法(一种算术运算)。
Textual Inversion 模型 概念 界面扩展 一种从少量样本图像中捕获概念的技术,其方式可以影响特定面部或物体的 txt2img 结果。
TheAlly 开发 模型 流行 TheAlly 的 Mix 模型和 SD 教程的创建者。 eachyou.ai 的所有者 https://civitai.com/models/1202/theallys-mix
token 概念 标记大致是提示中的单词、标点符号或 Unicode 字符。
Tokenizer 概念 模型 将文本提示转换为标记以进行处理的过程/模型。
Torch 2.0 软件 最新(2023 年 3 月)PyTorch 版本。
Training Data 模型 用于“ train 训练” SD 模型或嵌入的一组许多图像。
txt2img 模型 通过文本输入生成图像的模型/方法。
txt2video 模型 通过文本输入生成视频的模型/方法。
UniPC (Sampler) Sampler 最近发布的(3/2023)采样器基于 https://huggingface.co/docs/diffusers/api/schedulers/unipc
Upscale Upscaler 将低分辨率媒体(图像或视频)转换为更高分辨率媒体的过程。
VAE 模型 可变自动编码器。一个.vae.pt文件,它与检查点模型一起提供,并提供额外的细节改进。并非所有检查点都有关联的vae文件,有些vae文件是通用的,可以用于改进任何检查点模型。
Vector (Prompt Word) 概念 设置 尝试以数学方式表示单词的含义,以便在 SD 中进行处理。
Venv 软件 Python“虚拟环境”,允许 python 包的多个实例在同一台 PC 上独立运行。
Vicuna LLM 软件 https://vicuna.lmsys.org/ 一个开源聊天机器人模型,由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡内基梅隆大学合作创建。
Vladmandic 软件 SD用户界面 Auto1111 WebUI 的“分支”,具有自己的功能集。越来越受欢迎 (5/23) https://github.com/vladmandic/automatic
VRAM 硬件 视频随机存取存储器。专用显卡 (GPU) 内存用于存储像素和其他图形处理数据以供显示。
Waifu Diffusion 模型 一种流行的文本到图像模型,经过高质量动漫图像的训练,可生成精美的动漫风格图像输出。
WebUI 应用 SD用户界面 Automatic1111 的 WebUI 的通俗术语 - 一种用于稳定扩散提示的流行图形界面。
Weighted Sum (Interpolation Method) 设置 概念 使用公式 Result = ( A * (1 - M) ) + ( B * M ) 进行检查点合并的方法。
Weights 模型 检查点的替代术语
Wildcards 概念 软件 界面扩展 包含术语(服装类型、城市、天气状况等)的文本文件,可以自动输入到图像提示中,以实现各种动态图像。
xformers 概念 设置 界面扩展 可选库可加快图像生成速度。被 Torch 2.0 实现的新选项所取代
yaml 模型 应用 软件 界面扩展 一种人类可读的数据序列化编程语言,通常用于配置文件。 Yaml 文件伴随着检查点模型,并为稳定扩散提供有关检查点的附加信息。
posted @ 2024-03-21 13:58  天葬  阅读(219)  评论(0编辑  收藏  举报