High-Resolution Image Synthesis with Latent Diffusion Models

Rombach R., Blattmann A., Lorenz D., Esser P. and Ommer B. High-resolution image synthesis with latent diffusion models. In IEEE Computer Vision and Pattern Recognition Conference (CVPR), 2022.

将模型投射到更低维的子空间中, 以节省计算量.

大概流程

  • 原本的扩散模型开始和结束都是基于原始的图像空间, 所以如果想要生成特别高清的图像的话所需的计算开销是不菲的.

  • 于是作者希望先训练 Encoder, Decoder, 然后首先:

    1. 将原本的图像 xRC×H×W 映射到一个低维的隐空间中.
    2. 然后整个前向扩散和反向恢复的过程都在这个隐空间进行.
    3. 在实际推断的时候, 假设我们得到了一个隐空间中的一个采样 z^, 再通过 decoder 映射回来即可.
  • 注意, 本文还提出了一种一种 cross-attention 的方式来建模条件分布:

    Attention(Q,K,V)=softmax(QKTd)V,Q=WQ(i)φi(zt),K=WK(i),τθ(y),V=WV(i)τθ(y).

代码

official

posted @   馒头and花卷  阅读(250)  评论(2编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
历史上的今天:
2019-03-16 Python Revisited Day 07 (文件处理)
2019-03-16 下降方法与梯度下降
点击右上角即可分享
微信分享提示