BRIO:抽象文本摘要任务新的SOTA模型
在 SimCLS [2]论文发布后不久,作者又发布了抽象文本摘要任务的SOTA结果 [1]。BRIO在上述论文的基础上结合了对比学习范式。
BRIO解决什么问题?
上图显示 seq2seq 架构中使用的传统 MLE 损失与无参考对比损失之间的差异。
我们通常使用最大似然估计(Maximum Likelihood Estimation, MLE)损失来训练序列模型。但是论文认为我们使用的损失函数将把一个本质上可能有多个正确输出(非确定性)的任务的“正确”输出(确定性)赋值为零。训练和推理过程之间也存在差异,在生成过程中模型是基于自己之前的预测步骤,而不是目标总结。在推理过程中,当模型开始偏离目标(并变得更加混乱)时,就会造成更严重的偏差。
论文的贡献
他们提出了合并评价指标(例如ROUGE、BERTScore,…)的想法,这样模型就可以学习如何对摘要进行排序。这是通过使用多样化Beam Search和生成多个候选(在论文中为16)来完成的。论文设计了一个两阶段的工作:1、使用一个预先训练的网络(BART)生成候选人,2、从中选择最好的一个。
对比损失(ctr)负责指导模型学习如何对给定文章的多个候选者进行排名。它将在微调过程中用于改进序列级别的协调。论文也说明了仅针对对比损失的微调模型不能用于生成摘要,因此将上述损失的加权值与交叉熵(xnet)损失相加,以确保令牌级别的预测准确性。(下图 2)它被称为多任务微调损失(mul),虽然 BRIO-Mul 被描述为“双重角色”模型,但它其实是一个单一的模型,既可以生成摘要,也可以评估生成的候选者的质量。
变量γ 控制对比损失对最终损失的贡献。对于不同的gamma值(0、0.1、1、2等)的研究表明,数值越大,收敛速度越快。此外100是最佳的γ值,获得了最高的ROUGE评分。
完整文章
https://www.overfit.cn/post/16a69b58bd8e40208f7c65e16692bd99