DiffSeq

Gong S., Li M., Feng J., Wu Z. and Kong L. DiffuSeq: Sequence to sequence text generation with diffusion models. In International Conference on Learning Representations (ICLR), 2023

概

本文提出了一种用于 Seq2Seq 的不需要 classifier 引导的扩散模型, 且是在连续空间上讨论的.
虽然方法看起来很简单, 但是感觉很容易 work 和推广.

符号说明

流程

首先利用获取词的 embeddings:

这一步实际上是相当于构建从离散空间到连续空间的一个映射:
因为整个流程设计两个部分: source

于是

类似的之后的
前向过程: 如上图所示:
1. 根据
2. 此时我们依旧在连续空间中了, 故我们可以使用一般的高斯分布来加噪, 即:
  
  但是特别地, 我们只对 target 部分加噪:
反向过程: 同样如上图所示:
1. 从标准的高斯分布中采样
2. 根据如下分布进行反向传递:
最后的损失为如下:

需要注意的是, 其中
不过作者最后用的也不是上面的损失, 而是一个简化的版本 (即把原先的系数给去掉后的结果):

代码

posted @ 2024-07-29 15:47 jasonzhangxianrong 阅读(16) 评论(0) 编辑收藏举报

刷新页面返回顶部