“Datawhale x魔搭 AI夏令营”-AIGC方向-Day3从零入门AI生图原理&实践

学习内容提要

从通过代码实现AI文生图逐渐进阶,教程偏重图像工作流、微调、图像优化等思路,最后会简单介绍AIGC应用方向、数字人技术(选学)

Task03:进阶上分-实战优化

具体Datawhale教程学习内容见链接:https://linklearner.com/activity/14/10/37

框架

资源网站

名称 链接地址
在魔搭使用ComfyUI,玩转AIGC! https://modelscope.cn/headlines/article/429
ComfyUI的官方地址 https://github.com/comfyanonymous/ComfyUI
ComfyUI官方示范 https://comfyanonymous.github.io/ComfyUI_examples/
别人的基础工作流示范 https://github.com/cubiq/ComfyUI_Workflows
https://github.com/wyrde/wyrde-comfyui-workflows
工作流分享网站 https://comfyworkflows.com/
推荐一个比较好的comfyui的github仓库网站 https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO?tab=readme-ov-file

Lora 微调参数表

参数名称 参数值 说明
pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors 指定预训练UNet模型的路径
pretrained_text_encoder_path models/kolors/Kolors/text_encoder 指定预训练文本编码器的路径
pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors 指定预训练VAE模型的路径
lora_rank 16 设置LoRA的秩(rank),影响模型的复杂度和性能
lora_alpha 4 设置LoRA的alpha值,控制微调的强度
dataset_path data/lora_dataset_processed 指定用于训练的数据集路径
output_path ./models 指定训练完成后保存模型的路径
max_epochs 1 设置最大训练轮数为1
center_crop 启用中心裁剪,用于图像预处理
use_gradient_checkpointing 启用梯度检查点,节省显存
precision "16-mixed" 设置训练时的精度为混合16位精度(half precision)

数据集来源整理

以下渠道来源均需要考虑合规性问题,请大家在使用数据集过程中谨慎选择。

来源类型
推荐
公开的数据平台
魔搭社区内开放了近3000个数据集,涉及文本、图像、音频、视频和多模态等多种场景,左侧有标签栏帮助快速导览,大家可以看看有没有自己需要的数据集。

其他数据平台推荐:
  • ImageNet:包含数百万张图片,广泛用于分类任务,也可以用于生成任务。
  • Open Images:由Google维护,包含数千万张带有标签的图片。
  • Flickr:特别是Flickr30kK和Flickr8K数据集,常用于图像描述任务。
  • CelebA:专注于人脸图像的数据集。
  • LSUN (Large-scale Scene Understanding):包含各种场景类别的大规模数据集。
使用API或爬虫获取
  1. 如果需要特定类型的内容,可以利用API从图库网站抓取图片,如Unsplash、Pexels等。
  2. 使用网络爬虫技术从互联网上抓取图片,但需要注意版权问题。
数据合成
利用现有的图形引擎(如Unity、Unreal Engine)或特定软件生成合成数据,这在训练某些类型的模型时非常有用。
最近Datawhale联合阿里云天池,做了一整套多模态大模型数据合成的学习,欢迎大家一起交流。从零入门多模态大模型数据合成
数据增强
对于较小的数据集,可以通过旋转、翻转、缩放、颜色变换等方式进行数据增强。
购买或定制
如果你的应用是特定领域的,比如医学影像、卫星图像等,建议从靠谱的渠道购买一些数据集。

posted on 2024-08-17 22:50  琢磨亿下  阅读(41)  评论(0编辑  收藏  举报

导航