“Datawhale x魔搭 AI夏令营”-AIGC方向-Day1从零入门AI生图原理&实践
学习内容提要:
从通过代码实现AI文生图逐渐进阶,教程偏重图像工作流、微调、图像优化等思路,最后会简单介绍AIGC应用方向、数字人技术(选学)
Task01:简单了解一下文生图相关的基础知识
具体Datawhale教程学习内容见链接:https://linklearner.com/activity/14/10/24
报名赛事
链接:https://tianchi.aliyun.com/competition/entrance/532254
基础知识
关于文生图技术研究的发展:
文生图基础知识:
提示词
提示词很重要,一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家
Lora
Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。
参考图控制
ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。
ComfyUI
ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。
工具
python语言
Data-Juicer:数据处理和转换工具,旨在简化数据的提取、转换和加载过程
DiffSynth-Studio:高效微调训练大模型工具
实践步骤
Step0:开通阿里云PAI-DSW试用
链接:https://free.aliyun.com/?productCode=learn
- 在魔搭社区进行授权
Step1:报名赛事!(点击即可跳转)
> 链接:https://www.modelscope.cn/my/mynotebook/authorization
Step2:在魔搭社区创建PAI实例!
链接:https://www.modelscope.cn/my/mynotebook/authorization
Step3:30 分钟体验一站式 baseline!
-
下载baseline文件(大约需要2分钟)
git lfs install git clone https://www.modelscope.cn/datasets/maochase/kolors.git
-
进入文件夹,打开baseline文件
-
安装环境,然后重启kernel
- 安装 Data-Juicer 和 DiffSynth-Studio
- 运行代码
代码块按照功能主要分成这几类
-
使用Data-Juicer处理数据,整理训练数据文件
-
使用DiffSynth-Studio在基础模型上,使用前面整理好的数据文件进行训练微调
-
加载训练微调后的模型
-
使用微调后的模型,生成用户指定的prompt提示词的图片
最后结果:生成的图片还挺清晰的~
最喜欢这张
Step4:微调结果上传魔搭
最后别忘了关掉PAI实例
写在最后
感觉挺有意思的,使用了阿里云的算力,魔塔社区跟阿里云合作,能够使用云端深度学习开发环境,Notebook功能由阿里云提供产品和资源支持。感觉是国内能对标Google colab的产品组合了。