[论文阅读] BBDM@ Image-to-Image Translation With Brownian Bridge Diffusion Models

Pre

title: BBDM: Image-to-Image Translation With Brownian Bridge Diffusion Models
source: CVPR 2023
paper: https://arxiv.org/abs/2205.07680
code: https://github.com/xuekt98/BBDM

关键词: I2I, Brownian Bridge, Diffusion
阅读理由: 挺新奇的

Motivation

  1. GAN-based 方法在训练时难以稳定,且输出经常出现模式崩溃
  2. 扩散模型虽然表现出色,但它们通常将图像翻译视为条件生成过程,将参考图像用作条件引导向目标域的扩散,泛化性较差,在不同域之间存在较大的差距时会导致性能下降

Idea

将图像翻译建模为随机布朗桥过程,通过双向扩散过程直接学习两个域之间的转换

Background

图1 BBDM (Brownian Bridge Diffusion Model) 和 DDPM (Denoising Diffusion Probabilistic Model) 有向图模型的比较

重点在于过程的两个端点和条件y的使用

布朗桥:两个端点确定,中间的随机过程形成桥。方差可以提供必要的随机性,以学习复杂的数据分布并生成多样化的图像翻译结果,通过调整最大方差值还能平衡样本的质量和多样性。

Method(Model)

Overview

图2 BBDM的架构

编解码器是预训练的VQGAN,下方灰色的是布朗桥过程,z_t以z_0,z_T为条件得到

训练

目标是优化证据下界(Evidence Lower Bound,ELBO),同样是最小化预测噪声和实际噪声之间的差异:

加速采样

为了提高采样效率,BBDM采用了类似DDIM的方法,选择一系列时间步长\(\tau_1, \tau_2, ..., \tau_S\)子序列来做推理时的采样,相当于跳步

Experiment

图3 CelebAMask-HQ数据集上的比较

图4 不同图像翻译任务上的比较

图5 DDBM在不同图像翻译任务上的多样生成

表1 CelebAMask-HQ数据集上的定量比较

表2 DDBM在不同图像翻译任务上的定量比较

图6 其他图像翻译任务

图7 隐空间可视化

表3 不同下采样倍数的比较

Critique

很新奇,感觉跟之前看过的Rectified Flow有点神似,都是看着效果好但没有推广开来

posted @ 2024-06-18 16:47  NoNoe  阅读(40)  评论(0编辑  收藏  举报