摘要: 从DDPM到DDIM(四) 预测噪声与后处理 前情回顾 下图展示了DDPM的双向马尔可夫模型。 训练目标。最大化证据下界等价于最小化以下损失函数: \[\boldsymbol{\theta}^*=\underset{\boldsymbol{\theta}}{\operatorname{argmin} 阅读全文
posted @ 2024-07-29 18:18 txdt 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 从DDPM到DDIM(三) DDPM的训练与推理 前情回顾 首先还是回顾一下之前讨论的成果。 扩散模型的结构和各个概率模型的意义。下图展示了DDPM的双向马尔可夫模型。 其中\(\mathbf{x}_T\)代表纯高斯噪声,\(\mathbf{x}_t, 0 < t < T\) 代表中间的隐变量, \ 阅读全文
posted @ 2024-07-25 18:27 txdt 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 从DDPM到DDIM (二) 前向过程与反向过程的概率分布 本文是从DDPM到DDIM系列的第二篇,没看过第一篇的同志可以去阅读第一篇。我们这篇文章的小节序号和公式序号都沿用上一篇文章。 我们这里先简单回顾一下上一篇文章中一些重要的点。 扩散模型的结构和特点。下图展示了DDPM原文中的马尔可夫模型。 阅读全文
posted @ 2024-07-23 17:57 txdt 阅读(35) 评论(1) 推荐(0) 编辑
摘要: 从DDPM到DDIM (一) 极大似然估计与证据下界 现在网络上关于DDPM和DDIM的讲解有很多,但无论什么样的讲解,都不如自己推到一遍来的痛快。笔者希望就这篇文章,从头到尾对扩散模型做一次完整的推导。本文的很多部分都参考了 Calvin Luo[1] 和 Stanley Chan[2] 写的经典 阅读全文
posted @ 2024-07-23 17:42 txdt 阅读(153) 评论(1) 推荐(0) 编辑
摘要: 朗之万动力学(Langevin Dynamics)是扩散模型和score matching方法中的采样过程,是文本生成图像中的一个重要步骤。想要洞悉文生图的基本原理,朗之万动力学是绕不开的话题。 阅读全文
posted @ 2024-05-28 10:50 txdt 阅读(449) 评论(0) 推荐(0) 编辑