Stable Diffusion 术语表

说明

原文地址：https://theally.notion.site/The-Definitive-Stable-Diffusion-Glossary-1d1e6d15059c41e6a6b4306b4ecd9df9

文中术语来自以上地址翻译中文版

术语	标签	描述
.ckpt	模型	发音为“checkpoint”，是一种由 PyTorch Lightning（PyTorch 研究框架）创建的文件格式。它包含一个 PyTorch Lightning 机器学习模型（通过 Stable Diffusion）用于生成图像。
.pt	软件	使用PyTorch 创建的机器学习模型文件，包含用于自动执行任务的算法。
.Safetensors	模型	用于检查点模型的文件格式，不太容易受到嵌入式恶意代码的影响。参见“Pickle”
AGI	概念	通用人工智能（AGI），人工智能达到或超过人类智能的程度。
API	软件	应用程序编程接口-一组函数和工具，允许与软件片段或在软件片段之间进行交互。
Auto-GPT	软件 LLM
Automatic1111	开发 SD用户界面	社区名人，流行的 SD WebUI 图形用户界面的创建者。
Bard	软件	谷歌的聊天机器人，基于他们的 LaMDA 模型。
Bing	软件	Microsoft 的 ChatGTP 支持聊天机器人。
CFG	设置	分类器自由指导，有时是“Guidance Scale”。控制图像生成过程遵循文本提示的程度。
Checkpoint	模型	这是对从网络上多个来源抓取的数百万张带字幕图像进行训练的产物。该文件驱动Stable Diffusion的txt2img、img2img、txt2video
Civitai (Civitai.com)	社区资源	检查点模型、Hypernets、文本反转 Embeddings 的托管站点。美学渐变和VAE文件。
CLIP	软件	OpenAI 创建的开源模型。经过数百万张图像和标题的训练，它决定了特定标题描述图像的程度。
Cmdr2	开发 SD用户界面	社区名人，流行的 EasyDiffusion 一键安装 SD 图形用户界面的创建者。
CodeFormer	人脸/图像恢复	面部图像修复模型，用于修复模糊、颗粒状或毁容的面部。
Colab	社区资源组织	Colaboratory，谷歌研究的一个产品，允许通过浏览器执行Python代码。特别适合机器学习应用。https://colab.research.google.com/
ComfyUI	SD用户界面	一个流行的强大的模块化 UI，用于稳定扩散，具有“工作流”类型的工作空间。比 Auto1111 WebUI 更复杂 https://github.com/comfyanonymous/ComfyUI
CompVis	组织	慕尼黑路德维希马克西米利安大学计算机视觉与学习研究小组。他们在 Hugging Face 上托管稳定扩散模型。
Conda	应用软件	适用于多种编程语言（包括 Python）的开源包管理器。
ControlNet	用户界面扩展	Auto1111 WebUI 的扩展，允许以多种方式操作图像。 https://github.com/Mikubill/sd-webui-controlnet
Convergence	概念	随着图像生成过程中步骤的增加，图像开始看起来越来越相似。Convergence 是图像生成中图像不再随着步长的增加而变化的点。
CUDA	硬件软件	计算统一设备架构，Nvdia 的并行处理架构。
DALL-E / DALL-E 2	组织	由 OpenAI 创建的深度学习图像模型，可作为商业图像生成服务使用。
Danbooru Tag	社区资源	应用于 Danbooru 图像的关键字系统，描述其中的内容。当使用在 Danbooru 图像上训练的 Checkpoint 模型时，您可以在提示中引用这些关键字。
DDIM (Sampler)	采集器	去噪 Diffusion 隐式模型。请参阅采样器。
Deep Learning	概念	机器学习的一种，神经网络试图模仿人脑的行为来执行任务。
Deforum	社区资源界面扩展	一个由人工智能图像合成开发人员、爱好者和艺术家组成的社区，生产生成式人工智能工具。最常见的是同名的 Stable Diffusion WebUI 视频扩展。
Denoising/Diffusion	概念	将随机噪声（参见 `Seed`）迭代减少到最终图像的过程。
depth2img	概念	推断输入图像的深度（使用现有模型），然后使用文本和深度信息生成新图像。
Diffusion Model (DM)	模型	生成模型，用于生成与训练数据类似的数据。
DPM adaptive (Sampler)	采集器	扩散概率模型（Adaptive 自适应）。请参阅 `Samplers(采样器)` 。忽略步数。
DPM Fast (Sampler)	采集器	扩散概率模型（Fast快速）。请参阅 `Samplers(采样器)`。
DPM++ 2M (Sampler)	采集器	扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。
DPM++ 2M Karras (Sampler)	采集器	扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。
DPM++ 2S a Karras (Sampler)	采集器	扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。
DPM++ 2Sa (Sampler)	采集器	扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。
DPM++ SDE (Sampler)	采集器
DPM++ SDE Karras (Sampler)	采集器
DPM2 (Sampler)	采集器
DPM2 a (Sampler)	采集器
DPM2 a Karras (Sampler)	采集器
DPM2 Karras (Sampler)	采集器
DreamArtist	软件界面扩展 SD 用户界面	WebUI的一种扩展，允许用户创建经过训练的嵌入，以将图像定向到特定的样式或图形。研究论文DreamArtist:towards Contrastive One Shot Text-to-image Generation via Contractive Prompt Tuning的PyTorch实现，董子怡，魏鹏旭，林亮。
DreamBooth	社区资源界面扩展软件	DreamBooth 由 Google 研究人员开发，是一种深度学习图像生成模型，旨在微调现有模型（检查点）。可用于基于一组图像创建自定义模型。
DreamStudio	组织	Stability AI 使用 Stable Diffusion 模型创建的基于网络的商业图像生成服务。
EMA	模型	指数移动平均线。完整的 EMA 检查点模型包含推理（生成图像）不需要的额外训练数据。完整的 EMA 模型可用于进一步训练检查点。
Emad	组织开发	Emad Mostaque，Stability AI 的首席执行官兼联合创始人，该公司是 Stable Diffusion 背后的公司之一。
Embedding	概念	其他文件输入可帮助指导扩散模型生成与提示匹配的图像。可以是图形样式、人或物体的表示。请参阅 `Textual Inversion` 和 `Aesthetic Gradient`。支持链接
Entropy	概念	随机性或无序性的度量。支持链接
Epoch	概念	模型训练过程查看完整图像数据集的次数。例如。检查点模型的第 5 个 Epoc 对同一图像数据集进行了五次查看。
ESRGAN	界面扩展 Upscaler	增强的超分辨率生成对抗网络。一种从较低分辨率图像重建较高分辨率图像的技术。例如。将 720p 图像升级为 1080p。作为 `WebUI` 和 `SD UI` 中的工具实现。
Euler (Sampler)	采集器	以 Leonhard Euler 命名，是一种求解常微分方程的数值过程，请参阅采样器。
Euler a (Sampler)	采集器	欧拉采样器的祖先版本。以 Leonhard Euler 命名，是一种求解常微分方程的数值过程，请参阅采样器。
f111	模型	Zeipher AI 的流行检查点模型。产生优秀的女性形态，NSFW。
f222	模型	Zeipher AI 的流行检查点模型。产生优秀的女性形态，NSFW。
float16	设置模型	半精度浮点数。请参阅链接。
float32	设置模型	全精度浮点数。请参阅链接。
Generative AI	概念软件	人工智能的一种形式，可以使事物（图像、文本、音频、视频等）
GFPGAN	人脸/图像恢复	Generative Facial Prior，一种面部修复模型，用于修复模糊、颗粒状或毁容的面部。
Git (GitHub)	应用软件	用于软件开发、版本控制、错误跟踪、文档的托管服务。
GPT-3	模型	生成式预训练 Transformer 3，一种语言模型，使用机器学习根据初始提示生成类似人类的文本。
GPT-4	模型	生成式预训练 Transformer 4，一种语言模型，使用机器学习根据初始提示生成类似人类的文本。与 GPT 3/3.5 相比，性能和推理能力有了巨大飞跃。
GPU	硬件	图形处理单元，一种设计用于执行快速数学计算的处理器，允许其渲染图像和视频以进行显示。
Gradio	软件	基于网络浏览器的界面框架，专门用于机器学习应用程序。 Auto1111 WebUI 在 Gradio 界面中运行。
Hallucinations (LLM)	AI LLM 概念	有时，像 ChatGPT 这样的 LLM 模型会产生听起来似乎有道理但实际上毫无意义或完全错误的信息。这称为幻觉。
Hash (Checkpoint model)	模型概念	一种验证文件完整性的算法，通过生成所述文件的唯一字母数字字符串。检查点模型是哈希的，生成的字符串可以用于标识该模型。例如，Ally 的混合总是哈希c77ef05d。
Heun (Sampler)	采集器	以 Karl Heun 命名，是一种求解常微分方程的数值过程。请参阅采样器。
Hugging Face	组织	一个社区/数据科学平台，提供构建、训练和部署机器学习模型的工具。
Hypernetwork (Hypernet)	模型	一种根据自身内容（无需外部数据）引导 Checkpoint 模型走向特定主题、对象或角色的方法。
img2img		根据输入图像和 txt2img 提示生成新图像的过程。
Inpainting	设置概念	基于绘制的蒙版删除或替换图像中的对象的做法。
LAION	组织	一个非营利组织，为机器学习研究提供数据集、工具和模型。
LAION-5B	模型	用于研究目的的大型数据集，由 58.5 亿个 CLIP 过滤的图像文本对组成。
Lanczos	设置 Upscaler	用于计算采样数据的新值的插值方法。在本例中，用于升级图像。以创始人科尼利厄斯·兰佐斯 (Cornelius Lanczos) 的名字命名。
Large Language Model (LLM)	LLM AI	一种学习书写和与用户对话的神经网络。经过数十亿篇文本的训练，LLM擅长生成连贯的句子，并在正确的上下文中回答提示。他们可以执行诸如重写和总结文本、谈论各种主题和进行研究等任务。
Latent Diffusion	模型	一种扩散模型，包含压缩图像表示而不是实际图像。这种类型的模型允许存储大量数据，编码器可以使用这些数据从文本或图像输入重建图像。
Latent Mirroring	概念界面扩展	将镜像应用于生成中期的潜像，以产生从微妙平衡的构图到完美反射的任何效果。
Latent Space	概念	信息密集的空间，扩散模型的图像表示、注意力和变换被合并，形成扩散过程的初始噪声。
LDSR	设置 Upscaler	潜在扩散超分辨率升级。一种增加图像尺寸/质量的方法。
Lexica	社区资源	Lexica.art，稳定扩散艺术和提示的搜索引擎。
LlamaIndex (GPT Index)	LLM 软件	https://github.com/jerryjliu/llama_index - 允许通过生成的“索引”将文本数据连接到 LLM。
LLM	LLM	一种学习书写和与用户对话的神经网络。经过数十亿篇文本的训练，LLM擅长生成连贯的句子，并在正确的上下文中回答提示。他们可以执行诸如重写和总结文本、谈论各种主题和进行研究等任务。
LMS (Sampler)	采集器
LMS Karras (Sampler)	采集器
LoCON	模型
LoRA	模型概念	Low-Rank Adaptation，一种 SD 训练方法，很像文本反转。与传统的微调相比，可以捕捉风格和主题，在更短的时间内使用更小的输出文件产生更好的结果。
Merge (Checkpoint)	模型	将检查点模型组合（合并）以形成新模型的过程。根据合并方法（参见加权求和、Sigmoid）和乘法器，合并模型将保留其组成模型的不同特征。
Metadata	概念软件	元数据是描述数据的数据。在稳定扩散的上下文中，元数据通常用于描述提示、采样器设置、CFG、步骤等，这些用于定义图像，并存储在 .png 标头中。
MidJourney	组织	一种基于网络的商业图像生成服务，类似于 DALL-E，或免费、开源的 Stable Diffusion。
Model	模型	检查点的替代术语
Negative Prompt	设置	告诉稳定扩散的关键字会提示我们在生成的图像中不希望看到的内容。
Neural Network	概念软件	数学系统的作用类似于人脑，具有多层人工“神经元”，有助于发现数据之间的联系。
Notebook	社区资源	参见 `Colab`。 Jupyter 笔记本服务免费提供对包括 GPU 在内的计算资源的访问。
NovelAI (NAI)	组织	一项基于付费、订阅的人工智能辅助故事（文本）写作服务。还有一个 txt2img 模型，该模型已被泄露，现在已合并到许多稳定扩散模型中。
Olivio (Sarikas)	社区资源	Olivio 在 YouTube 上制作精彩的标清内容 (https://www.youtube.com/@OlivioSarikas) - 最好的SD 新闻 YouTuber 之一！
OpenAI	组织	人工智能研究实验室由营利性公司 OpenAI LP 和非营利性 OpenAI Inc. 组成。
OpenPose	模型软件	一种从人的图像中提取“骨架”的方法，允许姿势从一个图像转移到另一个图像。由 ControlNet 使用。
Outpainting	设置概念	将图像的外边框延伸到空白画布空间，同时保持图像的风格和内容的做法。
Parameters (LLMs)	概念软件	大型语言模型训练数据中的数值点。参数决定了模型执行任务的熟练程度。例如。 6B（十亿）参数模型的性能可能不如 13B 参数模型。
Pickle	软件概念	社区俚语，指隐藏在模型和嵌入中的潜在恶意代码。 “pickled”是指在您的计算机上执行不需要的代码（被黑客攻击）。
PLMS (Sampler)	采集器	预先训练的语言模型。请参阅采样器。
Prompt	设置	稳定扩散的文本输入描述您想要输出的图像的细节。
Pruned	模型	一种优化检查点模型以提高推理速度（提示生成）、文件大小和 VRAM 成本的方法。
Python	应用	一种流行的高级通用编码语言。
PyTorch	应用	由 META 创建的开源机器学习库。
Questianon	社区资源开发	流行的 SD Resource Goldmine 的作者 - https://rentry.org/sdupdates
Real-ESRGAN	缩放	一种图像恢复方法。
SadTalker	采集器	https://github.com/OpenTalker/SadTalker 基于音频输入的面部动画/唇形同步框架。
Sampling Steps	采集器	生成（diffusing）图像所需的步骤数。
SD 1.4	模型	潜在的 txt2img 模型，SD 发布时的默认模型。在 laion-aesthetics v2 数据集上以 512x512 分辨率对 225k 步骤进行微调。
SD 1.5	模型	潜在的 txt2img 模型，1.4 的更新版本，在 laion-aesthetics v2 数据集上以 512x512 分辨率进行了 595k 步的微调。
SD UI	应用	Cmdr2 流行的稳定扩散提示图形界面的通俗术语。
SDXL	模型	Stability AI 最新（2023 年 3 月）的 Stable Diffusion 模型。不可离线使用；只能通过某些订阅网站进行推理。
Seed	SD用户界面概念	用于初始化随机噪声生成的伪随机数，从中构建最终图像。可以保存种子并将其与其他设置一起使用以重新创建特定图像。
Shoggoth Tongue	概念 LLM	“Shoggoth Tongue”幽默地暗指克丘鲁神话中虚构怪物的语言，是高级ChatGPT命令的名称，这些命令特别晦涩难懂，但允许ChatGPT在系统预期操作之外执行高级操作。
Sigmoid (Interpolation Method)	模型	一种基于 Sigmoid 函数（一种产生“S”形曲线的数学函数）合并检查点模型的方法。
Stability AI	组织	由 Emad Mustaque 共同创立的人工智能技术公司。SD 背后的公司之一。
Stable Diffusion (SD)	组织	2022 年发布的深度学习文本到图像模型。它主要用于根据提供的文本描述生成详细图像。
SwinIR	人脸/图像恢复	图像恢复变换，旨在从低质量图像中恢复高质量图像。
teachyou.ai	社区资源	TheAlly 的 Patreon 的备用链接（此列表的作者！）
Tensor	软件	一个容器，可以在其中存储多维数据。
Tensor Core	硬件	Nvidia 开发的处理单元技术，旨在执行矩阵乘法（一种算术运算）。
Textual Inversion	模型概念界面扩展	一种从少量样本图像中捕获概念的技术，其方式可以影响特定面部或物体的 txt2img 结果。
TheAlly	开发模型	流行 TheAlly 的 Mix 模型和 SD 教程的创建者。 eachyou.ai 的所有者 https://civitai.com/models/1202/theallys-mix
token	概念	标记大致是提示中的单词、标点符号或 Unicode 字符。
Tokenizer	概念模型	将文本提示转换为标记以进行处理的过程/模型。
Torch 2.0	软件	最新（2023 年 3 月）PyTorch 版本。
Training Data	模型	用于“ train 训练” SD 模型或嵌入的一组许多图像。
txt2img	模型	通过文本输入生成图像的模型/方法。
txt2video	模型	通过文本输入生成视频的模型/方法。
UniPC (Sampler)	Sampler	最近发布的（3/2023）采样器基于 https://huggingface.co/docs/diffusers/api/schedulers/unipc
Upscale	Upscaler	将低分辨率媒体（图像或视频）转换为更高分辨率媒体的过程。
VAE	模型	可变自动编码器。一个.vae.pt文件，它与检查点模型一起提供，并提供额外的细节改进。并非所有检查点都有关联的vae文件，有些vae文件是通用的，可以用于改进任何检查点模型。
Vector (Prompt Word)	概念设置	尝试以数学方式表示单词的含义，以便在 SD 中进行处理。
Venv	软件	Python“虚拟环境”，允许 python 包的多个实例在同一台 PC 上独立运行。
Vicuna	LLM 软件	https://vicuna.lmsys.org/ 一个开源聊天机器人模型，由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡内基梅隆大学合作创建。
Vladmandic	软件 SD用户界面	Auto1111 WebUI 的“分支”，具有自己的功能集。越来越受欢迎 (5/23) https://github.com/vladmandic/automatic
VRAM	硬件	视频随机存取存储器。专用显卡 (GPU) 内存用于存储像素和其他图形处理数据以供显示。
Waifu Diffusion	模型	一种流行的文本到图像模型，经过高质量动漫图像的训练，可生成精美的动漫风格图像输出。
WebUI	应用 SD用户界面	Automatic1111 的 WebUI 的通俗术语 - 一种用于稳定扩散提示的流行图形界面。
Weighted Sum (Interpolation Method)	设置概念	使用公式 `Result = ( A * (1 - M) ) + ( B * M )` 进行检查点合并的方法。
Weights	模型	检查点的替代术语
Wildcards	概念软件界面扩展	包含术语（服装类型、城市、天气状况等）的文本文件，可以自动输入到图像提示中，以实现各种动态图像。
xformers	概念设置界面扩展	可选库可加快图像生成速度。被 Torch 2.0 实现的新选项所取代
yaml	模型应用软件界面扩展	一种人类可读的数据序列化编程语言，通常用于配置文件。 Yaml 文件伴随着检查点模型，并为稳定扩散提供有关检查点的附加信息。

posted @ 2024-03-21 13:58 天葬阅读(598) 评论(0) 收藏举报

刷新页面返回顶部

天葬

Stable Diffusion 术语表

Stable Diffusion 术语表

公告