DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models

Gong S., Li M., Feng J., Wu Z. and Kong L. DiffuSeq: Sequence to sequence text generation with diffusion models. In International Conference on Learning Representations (ICLR), 2023

本文提出了一种用于 Seq2Seq 的不需要 classifier 引导的扩散模型, 且是在连续空间上讨论的.
虽然方法看起来很简单, 但是感觉很容易 work 和推广.

符号说明

  • z0q(z), a real-world data distribution;
  • zTN(0,I), Gaussian noise;
  • q(zt|zt1)=N(zt;1βtzt1,βtI),t[1,2,,T];
  • fθ, a diffusion model;
  • wx=[w1x,,wmx], m-length soure sequence (离散的);
  • wy=[w1y,,wny], n-length soure sequence (离散的).

流程

  • 首先利用获取词的 embeddings:

    z0=Emb(w)=[Emb(w1),Emb(w2),],

    这一步实际上是相当于构建从离散空间到连续空间的一个映射:

    qϕ(z0|w)=δEmb(w)(z0).

  • 因为整个流程设计两个部分: source x, target y, 不妨令

    x0=Emb(wx)=[Emb(w1x),Emb(w2x),],y0=Emb(wy)=[Emb(w1y),Emb(w2y),].

    于是

    z0=x0y0.

    类似的之后的 zt 均可以分为 source 和 target 两部分, 即

    zt=xtyt.

  • 前向过程: 如上图所示:

    1. 根据 qϕ(z0|w) 得到 z0 (这一步实际上是确定的);
    2. 此时我们依旧在连续空间中了, 故我们可以使用一般的高斯分布来加噪, 即:

      ztq(zt|zt1)=N(zt;1βtzt1,βtI).

      但是特别地, 我们只对 target 部分加噪:

      zt=x0yt.

  • 反向过程: 同样如上图所示:

    1. 从标准的高斯分布中采样 zT, 并令

      zT=x0yT.

    2. 根据如下分布进行反向传递:

      zt1N(zt1;μθ(z,t),σθ(zt,t)),zt1=x0yt1,t2.

  • 最后的损失为如下:

  • 需要注意的是, 其中 qϕ(z0|wxy) 本身是一个确定的过程, 所以是不提供导数的, 可以省略. 整体的推导其实普通的 VLB 没什么差别, Lround 也只是原来的损失一部分, 只是被作者单拎了出来. 不过也有道理, 因为但看它, 其实就是希望训练一个分类网络, 将 z0 映射回词.

  • 不过作者最后用的也不是上面的损失, 而是一个简化的版本 (即把原先的系数给去掉后的结果):

    LVLB=[t=2Tz0fθ(z,t)2+Emb(wxy)fθ(z1,1)2logpθ(wxy|z0)][t=2Ty0f~θ(z,t)2+Emb(wy)f~θ(z1,1)2logpθ(wxy|z0)].

  • f,f~ 就是对 zt,yt 的直接拟合, 是另一种损失的写法. 具体看 here

代码

official

posted @   馒头and花卷  阅读(509)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2021-03-04 Chapter 9 Measurement Bias
2021-03-04 Chapter 8 Selection Bias
2020-03-04 Towards Deep Learning Models Resistant to Adversarial Attacks
2020-03-04 EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES
2020-03-04 Practical Black-Box Attacks against Machine Learning
点击右上角即可分享
微信分享提示