[论文阅读] BBDM@ Image-to-Image Translation With Brownian Bridge Diffusion Models

Pre

title: BBDM: Image-to-Image Translation With Brownian Bridge Diffusion Models
source: CVPR 2023
paper: https://arxiv.org/abs/2205.07680
code: https://github.com/xuekt98/BBDM

关键词: I2I, Brownian Bridge, Diffusion
阅读理由: 挺新奇的

Motivation

  1. GAN-based 方法在训练时难以稳定,且输出经常出现模式崩溃
  2. 扩散模型虽然表现出色,但它们通常将图像翻译视为条件生成过程,将参考图像用作条件引导向目标域的扩散,泛化性较差,在不同域之间存在较大的差距时会导致性能下降

Idea

将图像翻译建模为随机布朗桥过程,通过双向扩散过程直接学习两个域之间的转换

Background

图1 BBDM (Brownian Bridge Diffusion Model) 和 DDPM (Denoising Diffusion Probabilistic Model) 有向图模型的比较

重点在于过程的两个端点和条件y的使用

布朗桥:两个端点确定,中间的随机过程形成桥。方差可以提供必要的随机性,以学习复杂的数据分布并生成多样化的图像翻译结果,通过调整最大方差值还能平衡样本的质量和多样性。

Method(Model)

Overview

图2 BBDM的架构

编解码器是预训练的VQGAN,下方灰色的是布朗桥过程,z_t以z_0,z_T为条件得到

训练

目标是优化证据下界(Evidence Lower Bound,ELBO),同样是最小化预测噪声和实际噪声之间的差异:

加速采样

为了提高采样效率,BBDM采用了类似DDIM的方法,选择一系列时间步长\(\tau_1, \tau_2, ..., \tau_S\)子序列来做推理时的采样,相当于跳步

Experiment

图3 CelebAMask-HQ数据集上的比较

图4 不同图像翻译任务上的比较

图5 DDBM在不同图像翻译任务上的多样生成

表1 CelebAMask-HQ数据集上的定量比较

表2 DDBM在不同图像翻译任务上的定量比较

图6 其他图像翻译任务

图7 隐空间可视化

表3 不同下采样倍数的比较

Critique

很新奇,感觉跟之前看过的Rectified Flow有点神似,都是看着效果好但没有推广开来

本文作者:心有所向,日复一日,必有精进

本文链接:https://www.cnblogs.com/Stareven233/p/18254684

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   NoNoe  阅读(390)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起
  1. 1 Relaxロウきゅーぶ 渡辺剛
  2. 2 カントリーマーチ 栗コーダーカルテット
  3. 3 BGM-M7 かみむら周平
  4. 4 八百万の風が吹く Foxtail-Grass Studio
  5. 5 雲流れ Foxtail-Grass Studio
  6. 6 Melody 梶浦由記
  7. 7 ロック风アレンジ Angel Beats
  8. 8 ヨスガノソラ メインテーマ -遠い空へ- Bruno Wen-li
  9. 9 Servante du feu Matthieu Ladouce
  10. 10 Lost my pieces (Piano Ver.) 橋本由香利
  11. 11 潮鳴り 折戸伸治
  12. 12 雪風 Foxtail-Grass Studio
  13. 13 Bloom of Youth 清水淳一
  14. 14 落月随山隐 饭碗的彼岸,夜莺与玫瑰
  15. 15 Autumn Journey Eric Chiryoku
  16. 16 Alpha C418
  17. 17 Money之歌 神楽Mea
雲流れ - Foxtail-Grass Studio
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.

暂无歌词