17_有关图像的生成式AI（上）---AI如何生成图片和影片

有关图像的生成式AI（上）---AI如何生成图片和影片

一．有关图像的生成式AI

根据影像生成文字
根据文字生成影像
影像生影像：可以做影片的续写，风格转换，画质提升
其他输入生影像：音频生影像（Talking Head）
有关影像的生成式AI
影像是由一张一张图片构成，基本每秒24帧

二．文字生图

Autoregressive：根据输入的文字生成一个patch，再把这个patch接在文字后面继续输入生成下一个patch，最后通过Decoder生成图片

Non-autoregressive：提前知道需要多少patch，patch平行生成，通过Attention处理patch间的关系

三．如何评价影像生成的好坏

引入CLIP模型：测试文字与图片的匹配程度，得出分数

四．个性化图像生成

当我们无法准确描述需要的图像时，我们可以使用一个平时不太用的符号来代指这个特殊图像，并训练模型，使prompt为“A photo of *”时生成这一特殊图像

五．文字生影片

模型生成大量的patch，多个patch组成一个frame
减少Attention的计算：每个patch只跟同一个frame里的patch考虑Attention(2D)，考虑不同frame里同一个位置的patch（1D）

将1D和2D组合形成伪3D
多个模型接力，提高影片的解析度或者每秒帧数

posted on 2024-08-16 22:43 qsc789 阅读(106) 评论(0) 收藏举报

刷新页面返回顶部