有关图像的生成式AI(上)---AI如何生成图片和影片
一.有关图像的生成式AI
- 根据影像生成文字
- 根据文字生成影像
- 影像生影像:可以做影片的续写,风格转换,画质提升
- 其他输入生影像:音频生影像(Talking Head)
- 有关影像的生成式AI
- 影像是由一张一张图片构成,基本每秒24帧
二.文字生图
- Autoregressive:根据输入的文字生成一个patch,再把这个patch接在文字后面继续输入生成下一个patch,最后通过Decoder生成图片
- Non-autoregressive:提前知道需要多少patch,patch平行生成,通过Attention处理patch间的关系
三.如何评价影像生成的好坏
- 引入CLIP模型:测试文字与图片的匹配程度,得出分数
四.个性化图像生成
当我们无法准确描述需要的图像时,我们可以使用一个平时不太用的符号来代指这个特殊图像,并训练模型,使prompt为“A photo of *”时生成这一特殊图像
五.文字生影片
- 模型生成大量的patch,多个patch组成一个frame
- 减少Attention的计算:每个patch只跟同一个frame里的patch考虑Attention(2D),考虑不同frame里同一个位置的patch(1D)
- 将1D和2D组合形成伪3D
- 多个模型接力,提高影片的解析度或者每秒帧数