A Probabilistic Formulation of Unsupervised Text Style Transfer
概述
文本序列转换(transduction)将给定的文本序列从一个领域域转换为另一个领域,比如机器翻译。但这通常需要平行语料的支撑,因此不需要平行语料的无监督序列转换方法逐渐受到研究者们的关注。
最近的无监督文本风格迁移工作主要有两种做法,一种是基于非生成或者非概率的方法,比如使用生成对抗网络,但容易导致训练不稳定。另一种是直接设计无监督训练的损失,比如回译(backtranslation)损失,但可能的无监督目标的空间非常大,设计此类系统的过程通常是启发式的。
受到一些变分推断技术的启发,该论文直接定义一个生成概率模型,将两个域中的非平行语料库视为部分可观察的平行语料库,并且减弱了独立性假设。
无监督文本风格迁移
假设
该文引入隐语句(latent sentence)将语料补充为平行语料库,也就是引入
模型
模型架构
直接学习
其中
训练时使用对数概率:
上述推导只是给出了模型框架,论文选用基于注意力机制的Seq2Seq模型作为上述转换模型,并选用循环语言模型建模先验信息以减弱独立性假设。
模型学习
理想情况下,模型应该直接优化上述对数概率进行学习。然而,神经网络模型无法像HMM一样通过动态规划计算概率。因此,该论文采用Amortized变分推断得到对数概率下界(ELBO):
注意到一个域上的近似后验旨在学习反向风格转移分布,这恰好是相反域中生成分布的目标。比如,
此外,受到其它工作使用一个通用Seq2Seq模型在不同语言对之间翻译的启发,该论文进一步使用同一个编码器编码
ELBO中的重构项和KL散度项无法直接求梯度,因此该论文又对ELBO进一步近似。由于文本是离散的,因此使用Gumbel-softmax技术进行梯度估计。并且在实验中,使用贪心解码而不记录梯度的方式近似重构项。
另外,由于在刚开始训练时,编解码框架往往难以生成比较好的结果。因此该论文在模型训练初始阶段还加入了自重构(self-reconstruction)损失:
其中,
实验
该论文在六个风格迁移任务上进行了实验,分别是:sentiment transfer, word substitution decipherment, formality transfer, author imitation, and related language translation和unsupervised machine translation。下图是实验结果的一部分。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
· 现代计算机视觉入门之:什么是图片特征编码
· .NET 9 new features-C#13新的锁类型和语义
· Spring AI + Ollama 实现 deepseek-r1 的API服务和调用
· 《HelloGitHub》第 106 期
· 数据库服务器 SQL Server 版本升级公告
· 深入理解Mybatis分库分表执行原理
· 使用 Dify + LLM 构建精确任务处理应用