DreamBooth Hackathon FAQ 来啦
我们正在和和鲸社区共同举办 DreamBooth 微调活动。详细介绍请看以下链接。本文是我们总结讨论群大家遇到的常见问题作的 FAQ希望对大家有帮助
免费;零基础;提供算力;提供代码;国内服务器,无网络要求;真的只要传几张照片就可生成你的文生图模型了;快来玩吧;还有奖品!欢迎转发: 欢迎参加 Hugging Face DreamBooth 微调编程马拉松活动!
开始 Hackathon 之前我需要准备什么?
- HuggingFace 账户,用于上传模型
- HeyWhale 账户,用于获取计算资源
- 几张关于你想训练的概念的图片(可以是照片,电脑绘图或者 CG 生成的内容等)
训练一个模型大概要多久?
快的话 30 分钟就够了。如果想多次尝试,做到比较满意的效果,有 2-3 个小时的话应该就够了。如果遇到无法解决的问题,欢迎来群里讨论。
我完全没有编程基础,能参加吗?
完全可以。这里还有一个保姆级的教程可以参考(感谢小帅同学):https://www.bilibili.com/video/BV143411Z7Ln/
图片有什么要求吗?
- 主体清晰。背景颜色可以稍微多元化一点,但最好不要特别复杂,防止模型将背景的一部分内容/特性/纹理误认为是训练概念的一部分。
- 建议使用 jpg 格式。png 格式暂不支持(小挑战: 如果你成功的修改了 notebook 并支持了 png 格式,请联系我们~)
- 建议使用 https://www.birme.net/ 将图片裁切成正方形
- 最少四张。notebook 里面有一段代码写死了逻辑,
什么是 type_of_thing 和 name_of_concept?
简单来说 Dreambooth 就是通过一个官方模型已经学会的概念来学习此概念的一个新的实例。
比如说训练一个能生成的我家狗狗 caicai 的模型,那么 type_of_thing = “dog" name_of_concept = "caicai"
注意 type_of_thing 一定是一个模型已经了解的概念。name_of_concept 一定是一个模型没有学习过的词汇。可以通过调用官方模型来了解模型是否了解这些概念。也可以查看 diffusers 模型的 tokenizer/vocab.json 来了解。这次 hackathon 我们默认使用的是 SD1.4 的模型,可以参考以下文件 https://huggingface.co/CompVis/stable-diffusion-v1-4/raw/main/tokenizer/vocab.json 如果文件中没有对应词汇则说明模型不理解该概念。
我想训练一个风格,可以吗?
可以的。但是训练一个新的风格比训练一个已经学习过概念的实例要复杂一些。需要有更多的样本和调整过的超参数 (learning rate, steps 等等)。具体细节欢迎加微信群交流。
如何上传我的数据集
可以参考 https://huggingface.co/datasets/xianbao/my-dreambooth 或者 https://huggingface.co/docs/datasets/image_dataset 教程
我的模型看起来不错,但为什么上传模型文件要那么久?
文生图模型比较大,大概有 4-5G 并且有的时候会遇到网络连接不稳定的情况,所以有时候可能会比较久。如果失败,请重试。
常见报错
RuntimeError: Given groups=1, weight of size [128, 3, 3, 3], expected input[1, 4, 512, 512] to have 3 channels, but got 4 channels instead
数据集含有 png 图片,请转换成 jpg 格式
请注意 work 目录用量已超过 90%
work 目录空间有限,请删除一些无用文件。如果没有,则可忽略此消息。
为什么我产生的图片是黑的?
NSFW (Not safe for work) 检测器生效了。有的时候他可能会过于紧张。请尝试重新生成图片。因为随机数的作用每次生成的图片都会有所不同哦。
为什么我生成的图片手指的数量不对。
这个是一个老大难问题了。可以尝试重新生成或者自己 PS 一下。使用基于 SD2 的官方模型可能会效果好一些(但新模型可能会有比较难 prompt 的问题)。
为什么我生成的图只有纹理,没有形状?
请确保 prompt 同时包括 type_of_thing 和 name_of_concept
CUDA out of memory 了怎么办?
可能有些 cell 被重复执行,但内存没有被释放。可以执行 notebook 里面清空 CUDA cache 的命令来释放内存。类似于以下代码:
with torch.no_grad(): torch.cuda.empty_cache()
Webui 无法载入我的模型
Webui 的 ckpt 格式和我们这个 noetbook 使用的 diffusers 格式略有不同,可以参考这个文档来转化(感谢 hhhxynh@):https://zhuanlan.zhihu.com/p/599017886
如何参加评奖
- 请在 HeyWhale 社区上提交 repo 地址
- 可以 在这里 看到自己的当前的全球排名
- 每个类别的前三名可以获得全球的奖品
- 一般 HeyWhale 平台创建的模型都会带有 -heywhale 后缀,所以也可以看到自己在 HeyWhale 上的排名
如何获得更多的点赞
- 建议将一些生成效果还不错的图片和对应的 prompt 加到 readme.md
- HF 的 markdown editor 支持粘贴图片自动上传
- 在你的朋友圈宣传一下吧
再次特别感谢 HeyWhale 对本次活动的资源支持。群友 hhhxynh@ 在群里的热心答疑。感谢海辛老师对活动宣传的支持。
我们的 Hackathon 还有最后四天提交时间。大家加油~
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 一个奇形怪状的面试题:Bean中的CHM要不要加volatile?
· [.NET]调用本地 Deepseek 模型
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· .NET Core 托管堆内存泄露/CPU异常的常见思路
· PostgreSQL 和 SQL Server 在统计信息维护中的关键差异
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)