qdgy----  

有关图像的生成式AI(上)---AI如何生成图片和影片

一.有关图像的生成式AI

  • 根据影像生成文字
  • 根据文字生成影像
  • 影像生影像:可以做影片的续写,风格转换,画质提升
  • 其他输入生影像:音频生影像(Talking Head)
  • 有关影像的生成式AI
  • 影像是由一张一张图片构成,基本每秒24帧

二.文字生图

  • Autoregressive:根据输入的文字生成一个patch,再把这个patch接在文字后面继续输入生成下一个patch,最后通过Decoder生成图片

17_a

  • Non-autoregressive:提前知道需要多少patch,patch平行生成,通过Attention处理patch间的关系

17_b

三.如何评价影像生成的好坏

  • 引入CLIP模型:测试文字与图片的匹配程度,得出分数

四.个性化图像生成

当我们无法准确描述需要的图像时,我们可以使用一个平时不太用的符号来代指这个特殊图像,并训练模型,使prompt为“A photo of *”时生成这一特殊图像

五.文字生影片

  • 模型生成大量的patch,多个patch组成一个frame
  • 减少Attention的计算:每个patch只跟同一个frame里的patch考虑Attention(2D),考虑不同frame里同一个位置的patch(1D)

17_c

  • 将1D和2D组合形成伪3D
  • 多个模型接力,提高影片的解析度或者每秒帧数

17_d

posted on 2024-08-16 22:43  qsc789  阅读(106)  评论(0)    收藏  举报