Stable Diffusion 术语表
Stable Diffusion 术语表
说明
文中术语来自以上地址翻译中文版
术语 | 标签 | 描述 |
---|---|---|
.ckpt | 模型 | 发音为“checkpoint”,是一种由 PyTorch Lightning(PyTorch 研究框架)创建的文件格式。它包含一个 PyTorch Lightning 机器学习模型(通过 Stable Diffusion)用于生成图像。 |
.pt | 软件 | 使用PyTorch 创建的机器学习模型文件,包含用于自动执行任务的算法。 |
.Safetensors | 模型 | 用于检查点模型的文件格式,不太容易受到嵌入式恶意代码的影响。参见“Pickle” |
AGI | 概念 | 通用人工智能(AGI),人工智能达到或超过人类智能的程度。 |
API | 软件 | 应用程序编程接口-一组函数和工具,允许与软件片段或在软件片段之间进行交互。 |
Auto-GPT | 软件 LLM | |
Automatic1111 | 开发 SD用户界面 | 社区名人,流行的 SD WebUI 图形用户界面的创建者。 |
Bard | 软件 | 谷歌的聊天机器人,基于他们的 LaMDA 模型。 |
Bing | 软件 | Microsoft 的 ChatGTP 支持聊天机器人。 |
CFG | 设置 | 分类器自由指导,有时是“Guidance Scale”。控制图像生成过程遵循文本提示的程度。 |
Checkpoint | 模型 | 这是对从网络上多个来源抓取的数百万张带字幕图像进行训练的产物。该文件驱动Stable Diffusion的txt2img、img2img、txt2video |
Civitai (Civitai.com) | 社区资源 | 检查点模型、Hypernets、文本反转 Embeddings 的托管站点。美学渐变和VAE文件。 |
CLIP | 软件 | OpenAI 创建的开源模型。经过数百万张图像和标题的训练,它决定了特定标题描述图像的程度。 |
Cmdr2 | 开发 SD用户界面 | 社区名人,流行的 EasyDiffusion 一键安装 SD 图形用户界面的创建者。 |
CodeFormer | 人脸/图像恢复 | 面部图像修复模型,用于修复模糊、颗粒状或毁容的面部。 |
Colab | 社区资源 组织 | Colaboratory,谷歌研究的一个产品,允许 通过浏览器执行Python代码。特别适合机器学习应用。https://colab.research.google.com/ |
ComfyUI | SD用户界面 | 一个流行的强大的模块化 UI,用于稳定扩散,具有“工作流”类型的工作空间。比 Auto1111 WebUI 更复杂 https://github.com/comfyanonymous/ComfyUI |
CompVis | 组织 | 慕尼黑路德维希马克西米利安大学计算机视觉与学习研究小组。他们在 Hugging Face 上托管稳定扩散模型。 |
Conda | 应用 软件 | 适用于多种编程语言(包括 Python)的开源包管理器。 |
ControlNet | 用户界面扩展 | Auto1111 WebUI 的扩展,允许以多种方式操作图像。 https://github.com/Mikubill/sd-webui-controlnet |
Convergence | 概念 | 随着图像生成过程中步骤的增加,图像开始看起来越来越相似。Convergence 是图像生成中图像不再随着步长的增加而变化的点。 |
CUDA | 硬件 软件 | 计算统一设备架构,Nvdia 的并行处理架构。 |
DALL-E / DALL-E 2 | 组织 | 由 OpenAI 创建的深度学习图像模型,可作为商业图像生成服务使用。 |
Danbooru Tag | 社区资源 | 应用于 Danbooru 图像的关键字系统,描述其中的内容。当使用在 Danbooru 图像上训练的 Checkpoint 模型时,您可以在提示中引用这些关键字。 |
DDIM (Sampler) | 采集器 | 去噪 Diffusion 隐式模型。请参阅采样器。 |
Deep Learning | 概念 | 机器学习的一种,神经网络试图模仿人脑的行为来执行任务。 |
Deforum | 社区资源 界面扩展 | 一个由人工智能图像合成开发人员、爱好者和艺术家组成的社区,生产生成式人工智能工具。最常见的是同名的 Stable Diffusion WebUI 视频扩展。 |
Denoising/Diffusion | 概念 | 将随机噪声(参见 Seed )迭代减少到最终图像的过程。 |
depth2img | 概念 | 推断输入图像的深度(使用现有模型),然后使用文本和深度信息生成新图像。 |
Diffusion Model (DM) | 模型 | 生成模型,用于生成与训练数据类似的数据。 |
DPM adaptive (Sampler) | 采集器 | 扩散概率模型(Adaptive 自适应)。请参阅 Samplers(采样器) 。忽略步数。 |
DPM Fast (Sampler) | 采集器 | 扩散概率模型(Fast快速)。请参阅 Samplers(采样器) 。 |
DPM++ 2M (Sampler) | 采集器 | 扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。 |
DPM++ 2M Karras (Sampler) | 采集器 | 扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。 |
DPM++ 2S a Karras (Sampler) | 采集器 | 扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。 |
DPM++ 2Sa (Sampler) | 采集器 | 扩散概率模型 - 多步骤。在 15-20 个步骤内即可产生高质量的结果。 |
DPM++ SDE (Sampler) | 采集器 | |
DPM++ SDE Karras (Sampler) | 采集器 | |
DPM2 (Sampler) | 采集器 | |
DPM2 a (Sampler) | 采集器 | |
DPM2 a Karras (Sampler) | 采集器 | |
DPM2 Karras (Sampler) | 采集器 | |
DreamArtist | 软件 界面扩展 SD 用户界面 | WebUI的一种扩展,允许用户创建经过训练的嵌入,以将图像定向到特定的样式或图形。研究论文DreamArtist:towards Contrastive One Shot Text-to-image Generation via Contractive Prompt Tuning的PyTorch实现,董子怡,魏鹏旭,林亮。 |
DreamBooth | 社区资源 界面扩展 软件 | DreamBooth 由 Google 研究人员开发,是一种深度学习图像生成模型,旨在微调现有模型(检查点)。可用于基于一组图像创建自定义模型。 |
DreamStudio | 组织 | Stability AI 使用 Stable Diffusion 模型创建的基于网络的商业图像生成服务。 |
EMA | 模型 | 指数移动平均线。完整的 EMA 检查点模型包含推理(生成图像)不需要的额外训练数据。完整的 EMA 模型可用于进一步训练检查点。 |
Emad | 组织 开发 | Emad Mostaque,Stability AI 的首席执行官兼联合创始人,该公司是 Stable Diffusion 背后的公司之一。 |
Embedding | 概念 | 其他文件输入可帮助指导扩散模型生成与提示匹配的图像。可以是图形样式、人或物体的表示。请参阅 Textual Inversion 和 Aesthetic Gradient 。 支持链接 |
Entropy | 概念 | 随机性或无序性的度量。 支持链接 |
Epoch | 概念 | 模型训练过程查看完整图像数据集的次数。例如。检查点模型的第 5 个 Epoc 对同一图像数据集进行了五次查看。 |
ESRGAN | 界面扩展 Upscaler | 增强的超分辨率生成对抗网络。一种从较低分辨率图像重建较高分辨率图像的技术。例如。将 720p 图像升级为 1080p。作为 WebUI 和 SD UI 中的工具实现。 |
Euler (Sampler) | 采集器 | 以 Leonhard Euler 命名,是一种求解常微分方程的数值过程,请参阅采样器。 |
Euler a (Sampler) | 采集器 | 欧拉采样器的祖先版本。以 Leonhard Euler 命名,是一种求解常微分方程的数值过程,请参阅采样器。 |
f111 | 模型 | Zeipher AI 的流行检查点模型。产生优秀的女性形态,NSFW。 |
f222 | 模型 | Zeipher AI 的流行检查点模型。产生优秀的女性形态,NSFW。 |
float16 | 设置 模型 | 半精度浮点数。请参阅链接。 |
float32 | 设置 模型 | 全精度浮点数。请参阅链接。 |
Generative AI | 概念 软件 | 人工智能的一种形式,可以使事物(图像、文本、音频、视频等) |
GFPGAN | 人脸/图像恢复 | Generative Facial Prior,一种面部修复模型,用于修复模糊、颗粒状或毁容的面部。 |
Git (GitHub) | 应用 软件 | 用于软件开发、版本控制、错误跟踪、文档的托管服务。 |
GPT-3 | 模型 | 生成式预训练 Transformer 3,一种语言模型,使用机器学习根据初始提示生成类似人类的文本。 |
GPT-4 | 模型 | 生成式预训练 Transformer 4,一种语言模型,使用机器学习根据初始提示生成类似人类的文本。与 GPT 3/3.5 相比,性能和推理能力有了巨大飞跃。 |
GPU | 硬件 | 图形处理单元,一种设计用于执行快速数学计算的处理器,允许其渲染图像和视频以进行显示。 |
Gradio | 软件 | 基于网络浏览器的界面框架,专门用于机器学习应用程序。 Auto1111 WebUI 在 Gradio 界面中运行。 |
Hallucinations (LLM) | AI LLM 概念 | 有时,像 ChatGPT 这样的 LLM 模型会产生听起来似乎有道理但实际上毫无意义或完全错误的信息。这称为幻觉。 |
Hash (Checkpoint model) | 模型 概念 | 一种验证文件完整性的算法,通过生成所述文件的唯一字母数字字符串。检查点模型是哈希的,生成的字符串可以用于标识该模型。例如,Ally 的混合总是哈希c77ef05d。 |
Heun (Sampler) | 采集器 | 以 Karl Heun 命名,是一种求解常微分方程的数值过程。请参阅采样器。 |
Hugging Face | 组织 | 一个社区/数据科学平台,提供构建、训练和部署机器学习模型的工具。 |
Hypernetwork (Hypernet) | 模型 | 一种根据自身内容(无需外部数据)引导 Checkpoint 模型走向特定主题、对象或角色的方法。 |
img2img | 根据输入图像和 txt2img 提示生成新图像的过程。 | |
Inpainting | 设置 概念 | 基于绘制的蒙版删除或替换图像中的对象的做法。 |
LAION | 组织 | 一个非营利组织,为机器学习研究提供数据集、工具和模型。 |
LAION-5B | 模型 | 用于研究目的的大型数据集,由 58.5 亿个 CLIP 过滤的图像文本对组成。 |
Lanczos | 设置 Upscaler | 用于计算采样数据的新值的插值方法。在本例中,用于升级图像。以创始人科尼利厄斯·兰佐斯 (Cornelius Lanczos) 的名字命名。 |
Large Language Model (LLM) | LLM AI | 一种学习书写和与用户对话的神经网络。经过数十亿篇文本的训练,LLM擅长生成连贯的句子,并在正确的上下文中回答提示。他们可以执行诸如重写和总结文本、谈论各种主题和进行研究等任务。 |
Latent Diffusion | 模型 | 一种扩散模型,包含压缩图像表示而不是实际图像。这种类型的模型允许存储大量数据,编码器可以使用这些数据从文本或图像输入重建图像。 |
Latent Mirroring | 概念 界面扩展 | 将镜像应用于生成中期的潜像,以产生从微妙平衡的构图到完美反射的任何效果。 |
Latent Space | 概念 | 信息密集的空间,扩散模型的图像表示、注意力和变换被合并,形成扩散过程的初始噪声。 |
LDSR | 设置 Upscaler | 潜在扩散超分辨率升级。一种增加图像尺寸/质量的方法。 |
Lexica | 社区资源 | Lexica.art,稳定扩散艺术和提示的搜索引擎。 |
LlamaIndex (GPT Index) | LLM 软件 | https://github.com/jerryjliu/llama_index - 允许通过生成的“索引”将文本数据连接到 LLM。 |
LLM | LLM | 一种学习书写和与用户对话的神经网络。经过数十亿篇文本的训练,LLM擅长生成连贯的句子,并在正确的上下文中回答提示。他们可以执行诸如重写和总结文本、谈论各种主题和进行研究等任务。 |
LMS (Sampler) | 采集器 | |
LMS Karras (Sampler) | 采集器 | |
LoCON | 模型 | |
LoRA | 模型 概念 | Low-Rank Adaptation,一种 SD 训练方法,很像文本反转。与传统的微调相比,可以捕捉风格和主题,在更短的时间内使用更小的输出文件产生更好的结果。 |
Merge (Checkpoint) | 模型 | 将检查点模型组合(合并)以形成新模型的过程。根据合并方法(参见加权求和、Sigmoid)和乘法器,合并模型将保留其组成模型的不同特征。 |
Metadata | 概念 软件 | 元数据是描述数据的数据。在稳定扩散的上下文中,元数据通常用于描述提示、采样器设置、CFG、步骤等,这些用于定义图像,并存储在 .png 标头中。 |
MidJourney | 组织 | 一种基于网络的商业图像生成服务,类似于 DALL-E,或免费、开源的 Stable Diffusion。 |
Model | 模型 | 检查点的替代术语 |
Negative Prompt | 设置 | 告诉稳定扩散的关键字会提示我们在生成的图像中不希望看到的内容。 |
Neural Network | 概念 软件 | 数学系统的作用类似于人脑,具有多层人工“神经元”,有助于发现数据之间的联系。 |
Notebook | 社区资源 | 参见 Colab 。 Jupyter 笔记本服务免费提供对包括 GPU 在内的计算资源的访问。 |
NovelAI (NAI) | 组织 | 一项基于付费、订阅的人工智能辅助故事(文本)写作服务。还有一个 txt2img 模型,该模型已被泄露,现在已合并到许多稳定扩散模型中。 |
Olivio (Sarikas) | 社区资源 | Olivio 在 YouTube 上制作精彩的标清内容 (https://www.youtube.com/@OlivioSarikas) - 最好的SD 新闻 YouTuber 之一! |
OpenAI | 组织 | 人工智能研究实验室由营利性公司 OpenAI LP 和非营利性 OpenAI Inc. 组成。 |
OpenPose | 模型软件 | 一种从人的图像中提取“骨架”的方法,允许姿势从一个图像转移到另一个图像。由 ControlNet 使用。 |
Outpainting | 设置 概念 | 将图像的外边框延伸到空白画布空间,同时保持图像的风格和内容的做法。 |
Parameters (LLMs) | 概念 软件 | 大型语言模型训练数据中的数值点。参数决定了模型执行任务的熟练程度。例如。 6B(十亿)参数模型的性能可能不如 13B 参数模型。 |
Pickle | 软件 概念 | 社区俚语,指隐藏在模型和嵌入中的潜在恶意代码。 “pickled”是指在您的计算机上执行不需要的代码(被黑客攻击)。 |
PLMS (Sampler) | 采集器 | 预先训练的语言模型。请参阅采样器。 |
Prompt | 设置 | 稳定扩散的文本输入描述您想要输出的图像的细节。 |
Pruned | 模型 | 一种优化检查点模型以提高推理速度(提示生成)、文件大小和 VRAM 成本的方法。 |
Python | 应用 | 一种流行的高级通用编码语言。 |
PyTorch | 应用 | 由 META 创建的开源机器学习库。 |
Questianon | 社区资源 开发 | 流行的 SD Resource Goldmine 的作者 - https://rentry.org/sdupdates |
Real-ESRGAN | 缩放 | 一种图像恢复方法。 |
SadTalker | 采集器 | https://github.com/OpenTalker/SadTalker 基于音频输入的面部动画/唇形同步框架。 |
Sampling Steps | 采集器 | 生成(diffusing)图像所需的步骤数。 |
SD 1.4 | 模型 | 潜在的 txt2img 模型,SD 发布时的默认模型。在 laion-aesthetics v2 数据集上以 512x512 分辨率对 225k 步骤进行微调。 |
SD 1.5 | 模型 | 潜在的 txt2img 模型,1.4 的更新版本,在 laion-aesthetics v2 数据集上以 512x512 分辨率进行了 595k 步的微调。 |
SD UI | 应用 | Cmdr2 流行的稳定扩散提示图形界面的通俗术语。 |
SDXL | 模型 | Stability AI 最新(2023 年 3 月)的 Stable Diffusion 模型。不可离线使用;只能通过某些订阅网站进行推理。 |
Seed | SD用户界面 概念 | 用于初始化随机噪声生成的伪随机数,从中构建最终图像。可以保存种子并将其与其他设置一起使用以重新创建特定图像。 |
Shoggoth Tongue | 概念 LLM | “Shoggoth Tongue”幽默地暗指克丘鲁神话中虚构怪物的语言,是高级ChatGPT命令的名称,这些命令特别晦涩难懂,但允许ChatGPT在系统预期操作之外执行高级操作。 |
Sigmoid (Interpolation Method) | 模型 | 一种基于 Sigmoid 函数(一种产生“S”形曲线的数学函数)合并检查点模型的方法。 |
Stability AI | 组织 | 由 Emad Mustaque 共同创立的人工智能技术公司。SD 背后的公司之一。 |
Stable Diffusion (SD) | 组织 | 2022 年发布的深度学习文本到图像模型。它主要用于根据提供的文本描述生成详细图像。 |
SwinIR | 人脸/图像恢复 | 图像恢复变换,旨在从低质量图像中恢复高质量图像。 |
teachyou.ai | 社区资源 | TheAlly 的 Patreon 的备用链接(此列表的作者!) |
Tensor | 软件 | 一个容器,可以在其中存储多维数据。 |
Tensor Core | 硬件 | Nvidia 开发的处理单元技术,旨在执行矩阵乘法(一种算术运算)。 |
Textual Inversion | 模型 概念 界面扩展 | 一种从少量样本图像中捕获概念的技术,其方式可以影响特定面部或物体的 txt2img 结果。 |
TheAlly | 开发 模型 | 流行 TheAlly 的 Mix 模型和 SD 教程的创建者。 eachyou.ai 的所有者 https://civitai.com/models/1202/theallys-mix |
token | 概念 | 标记大致是提示中的单词、标点符号或 Unicode 字符。 |
Tokenizer | 概念 模型 | 将文本提示转换为标记以进行处理的过程/模型。 |
Torch 2.0 | 软件 | 最新(2023 年 3 月)PyTorch 版本。 |
Training Data | 模型 | 用于“ train 训练” SD 模型或嵌入的一组许多图像。 |
txt2img | 模型 | 通过文本输入生成图像的模型/方法。 |
txt2video | 模型 | 通过文本输入生成视频的模型/方法。 |
UniPC (Sampler) | Sampler | 最近发布的(3/2023)采样器基于 https://huggingface.co/docs/diffusers/api/schedulers/unipc |
Upscale | Upscaler | 将低分辨率媒体(图像或视频)转换为更高分辨率媒体的过程。 |
VAE | 模型 | 可变自动编码器。一个.vae.pt文件,它与检查点模型一起提供,并提供额外的细节改进。并非所有检查点都有关联的vae文件,有些vae文件是通用的,可以用于改进任何检查点模型。 |
Vector (Prompt Word) | 概念 设置 | 尝试以数学方式表示单词的含义,以便在 SD 中进行处理。 |
Venv | 软件 | Python“虚拟环境”,允许 python 包的多个实例在同一台 PC 上独立运行。 |
Vicuna | LLM 软件 | https://vicuna.lmsys.org/ 一个开源聊天机器人模型,由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡内基梅隆大学合作创建。 |
Vladmandic | 软件 SD用户界面 | Auto1111 WebUI 的“分支”,具有自己的功能集。越来越受欢迎 (5/23) https://github.com/vladmandic/automatic |
VRAM | 硬件 | 视频随机存取存储器。专用显卡 (GPU) 内存用于存储像素和其他图形处理数据以供显示。 |
Waifu Diffusion | 模型 | 一种流行的文本到图像模型,经过高质量动漫图像的训练,可生成精美的动漫风格图像输出。 |
WebUI | 应用 SD用户界面 | Automatic1111 的 WebUI 的通俗术语 - 一种用于稳定扩散提示的流行图形界面。 |
Weighted Sum (Interpolation Method) | 设置 概念 | 使用公式 Result = ( A * (1 - M) ) + ( B * M ) 进行检查点合并的方法。 |
Weights | 模型 | 检查点的替代术语 |
Wildcards | 概念 软件 界面扩展 | 包含术语(服装类型、城市、天气状况等)的文本文件,可以自动输入到图像提示中,以实现各种动态图像。 |
xformers | 概念 设置 界面扩展 | 可选库可加快图像生成速度。被 Torch 2.0 实现的新选项所取代 |
yaml | 模型 应用 软件 界面扩展 | 一种人类可读的数据序列化编程语言,通常用于配置文件。 Yaml 文件伴随着检查点模型,并为稳定扩散提供有关检查点的附加信息。 |
哇!又赚了一天人民币