CLIP 引导稳定扩散(Doohickey 初学者指南)
CLIP 引导稳定扩散(Doohickey 初学者指南)
我创建了一个新笔记本!在 Johnathan Whitaker 的“Grokking Stable Diffusion”的基础上,我给你带来了……。 Doohickey 几乎完全是初学者的指南。 (假设您知道如何以平均水平浏览网站)
an image generated with the notebook, that I’m using for my profile picture! It was made using the CLIP ViT-H-14 model for classifier guidance
没有一个允许您使用稳定扩散的公共笔记本真正叫我,所以我用 CLIP Text/Image Guidance 制作了自己的全功能笔记本(即使使用来自 LAION 的新 SOTA ViT-H/14 和 B/14 https://laion.ai/blog/large-openclip/ ), 文本反转 ( https://arxiv.org/abs/2208.01618 )、用于内存高效采样的注意力切片、Perlin/图像初始化、初始化的 LPIPS 指导以及更多功能。
你可以在这里使用它( https://colab.research.google.com/github/aicrumb/doohickey/blob/main/Doohickey_Diffusion.ipynb ) 在 Google Colab 的免费 GPU 实例上。
this is another image from the notebook, but very quickly thrown together because i read somewhere that the more pictures you have in your medium article the better the reading retention
使用指南!
前三段是关于注册 huggingface 的,如果你已经有一个 huggingface 帐户,其令牌具有读取或写入权限,请跳过这些。
指导时间,如果您不熟悉 Colab 或 IPython 笔记本,可以简单开始,请转到此处查看欢迎页面 https://colab.research.google.com/?utm_source=scs-index
如果您熟悉或不在乎,请从上一个链接开始。第一个单元只是安装库并登录到拥抱脸。您将需要一个帐户 https://huggingface.co/ 您需要同意稳定扩散的条款 https://huggingface.co/CompVis/stable-diffusion-v1-4 .
完成所有这些后,转到您的设置 https://huggingface.co/settings/tokens 并使用“写”或“读”卷创建一个令牌。这将是您用于登录笔记本的令牌。
毕竟,您只需点击笔记本中第一个单元格左侧的播放按钮,就会打开一个 GUI 让您登录。
“导入库”和“设置生成循环”无关紧要,登录后您也可以点击播放按钮。
第五个单元必须处理文本反转,不需要更改它,但如果您在拥抱脸集线器上有预训练的文本反转概念,您可以通过将用户 ID 和概念名称放入“specific_concepts”中将其加载到此笔记本中列表。例如,如果您的概念在 sd-concepts 库中,则列表可能类似于
[“sd 概念库/我的概念”]
如果你不知道什么是文本反转,这里有一个笔记本会向你介绍并让你在这个链接上训练一个: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/sd_textual_inversion_training.ipynb
有一些填充单元有提示和技巧,但在这些单元之后有一个名为“生成”的巨大块。这是您的提示所在,您可以在其中设置要生成的图像的大小,并启用 CLIP Guidance。 CLIP Guidance 可以稍微提高图像质量,Midjourney 就是 CLIP Guided Stable Diffusion 的一个很好的例子(如果 Emad 的 AMA 答案是真的)。但它不是必需的,因为它将生成时间减慢了大约 5 倍。
lo! but what could that be but another reading retention picture!
对于初学者:将“提示”更改为要转换为图像的文本,然后也点击该单元格旁边的播放按钮,如果“分类器_指导”旁边有复选标记,则取消选中它,它只会变慢。
对于非初学者:每个参数都在笔记本中进行了详细解释,有初始化图像支持(不确定它是否按预期工作,如果您发现问题提交 PR 或问题 https://github.com/aicrumb/doohickey )。如果您在本地运行和/或使用支持 BFloat16 的 GPU,请将 dtype 变量更改为 torch.bfloat16 以将速度提高 3 倍。同样在 Github 存储库中,我提供了有关新 H/14 CLIP 模型的参数的详细信息。
就是这样,这更像是一篇博客文章,详细介绍了如何使用该工具而不是它是如何工作的,如果您对笔记本中的特定细节有疑问,请回复此内容或给我发送消息。
(我本来可以早点搞定的,但我没有一台非常快的机器!我只是使用免费的 colab 层来开发。如果有人想赞助我)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通