自2018年以来,预训练无疑是自然语言处理领域最热门的研究课题之一。通过使用BERT、GPT和XLNet等通用语言模型自动写作软件,该领域的研究人员在自然语言理解方面取得了许多重大突破。然而,这些主流的预训练方法并没有给自然语言生成任务带来显著的改进。为此,微软亚洲研究院提出了一种新的通用预训练方法——MASS,在这项任务中可以取得比BERT和GPT更好的结果。
BERT和XLNet在自然语言理解任务(如情感分类、自然语言推理和SKd阅读理解)方面取得了巨大成功。然而,除了自然语言理解任务之外,自然语言处理领域(NLP domain)还具有许多序列到序列的语言生成任务,如自动写作软件、文本摘要生成、对话生成、问答、文本风格转换等。对于这些任务,使用编码器-注意-解码器框架是主流方法。
图1编码器-注意-解码器框架
如图1所示,编码器将源序列x作为输入,并将其转换成隐藏表示序列,然后解码器通过注意机制从编码器中提取隐藏表示的序列信息,并自动生成目标序列文本y
BERT和XLnet通常预先训练编码器理解自然语言。GPT是解码器语言建模的预培训。当BERT和GPT用于序列到序列语言生成任务时,我们通常需要分别对编码器和解码器进行预训练。在这种情况下,编码器-注意-解码器框架和注意机制没有被联合训练。然而,注意力机制在这类任务中非常重要,一旦缺失,伯特和GPT就无法达到最佳表现。
一种新的预训练方法
对于从序列到序列的自然语言生成任务,微软亚洲研究院的机器学习团队提出了一种新的预训练方法,即屏蔽序列到序列的预训练。MASS随机屏蔽长度为K的句子段,并通过编码器-注意-解码器框架预测该屏蔽段。
图2质量框架
如图2所示,编码器侧的第3至第6标记被屏蔽,而在解码器侧,只有被屏蔽的标记被预测,而其他标记被屏蔽。大众预培训有以下优点:
解码器侧的其他标记(编码器侧的未屏蔽标记)被屏蔽,从而推动解码器提取更多信息以帮助预测连续的句子片段,并促进编码器-注意-解码器结构的联合训练;
为了给解码器提供更多有用的信息,编码器被迫提取未屏蔽标记的含义,这可以提高编码器理解源序列文本的能力;
解码器被设计用于预测连续标记(句子片段),这可以提高解码器的语言建模能力。
统一的培训前框架
质量有一个重要的超参数K(屏蔽段的长度)。通过调整K值,MASS可以将BERT中的掩蔽语言建模与GPT的标准语言建模相结合,从而将MASS扩展到通用的预训练框架中。
当k=1时,根据MASS的设计,编码器侧的标记被屏蔽,解码器侧预测屏蔽的标记,如图3所示。解码器没有输入信息,因此MASS相当于BERT中的屏蔽语言模型。
当图3中k=1时,编码器侧的标记被屏蔽,解码器侧预测屏蔽的标记
当k=m(m是序列的长度)时,在MASS中,编码器侧的所有标记都被屏蔽,而解码器侧预测所有标记,如图4所示。解码器无法从编码器中提取任何信息。质量相当于GPT的标准语言模式。
当图4中k=m时,编码器侧的所有字都被屏蔽,而解码器侧预测所有标记,这相当于GPT的标准语言模型
不同K值下质量的概率公式如表1所示,其中M是序列的长度,U和V分别是掩蔽片段的开始和结束位置。
从位置U到位置V的标记被屏蔽的序列。可以看出,当k=1或m时,MASS的概率公式相当于伯特的掩蔽语言模型和GPT的标准语言模型。
表1不同K值下质量概率公式
研究人员通过实验分析了不同k值下的质量性能,如图5所示:
图5示出了在训练之前和微调期间在各种掩蔽长度k下的MASS性能,包括a) PPL b) WMT13英法翻译法语句子c) BLEU d) ROUGE e)为WMT13非监督英法翻译生成的PPL对话当k等于句子长度的一半时,下游任务可以达到最佳性能。屏蔽句子中的一半单词可以很好地平衡编码器和解码器的预训练部分。如果预训练更偏向编码器侧(k=1,即BERT)或更偏向解码器侧(k=m,LM/GPT),则无法实现最佳性能,这也显示了MASS在序列到序列语言生成任务中的优势。
顺序对顺序语言生成任务测试
预培训
值得注意的是,MASS只需要用于预培训的无监督的单语数据(例如,WMT新闻爬网数据、维基百科数据等)。)。MASS支持跨语言任务(如机器翻译)和单语任务(如文本摘要生成和对话生成)。在跨语言任务(如英法翻译)的预训练中,研究者可以在一个模型中同时预训练英语-英语和法语-法语,并使用附加的语言嵌入向量来区分语言。在无监督机器翻译、低资源机器翻译、文本摘要生成和对话生成四个领域,研究者对MASS进行了微调以验证其有效性。
无监督机器翻译
关于无人监督的机器翻译任务,研究人员将MASS与以前的方法进行了比较,包括最先进的方法脸谱XLM。XLM使用BERT创建的掩蔽预训练语言模型和标准语言模型分别对编码器和解码器进行预训练。
结果如表2所示,MASS在WMT14英法、WMT16英德和英罗马尼亚六个翻译方向上均优于XLM,并获得了最新的最优结果。
表2质量和以前无监督机器翻译方法的比较;英法翻译报告可在2014年新闻测试中查阅,其他可在2016年新闻测试中查阅。由于XLM在编码器和解码器中使用了MLM和CLM的不同组合,该报告显示了每种语言对XLM的BLEU值最高。
低资源机器翻译
低资源机器翻译是指使用有限的双语培训数据进行机器翻译。研究人员模拟了WMT14英语-法语、WMT16英语-德语和英语-罗马尼亚语翻译的低资源情景(分别为10K、10万和1M双语数据)。
图6海量和低资源机器翻译方法的比较
图6表明,MASS在不同数据尺度上的性能比未经过预训练的基线模型有不同程度的提高,并且监控数据越少,提高效果越明显。文本摘要生成
研究人员将MASS与BERT LM(用BERT预训练的编码器,用标准语言模型LM预训练的解码器)和DAE(去噪自编码器)进行了比较。从表3中可以看出,质量优于BERT LM和DAE。
表3文本摘要生成任务中MASS和两种预训练方法的比较
对话生成
研究人员比较了MASS BERT LM。表4显示被屠杀的质量低于BERT LM。
表4质量和BERT LM之间的比较数据
MASS在顺序到顺序语言生成任务中不断取得重大进展。Facebook研究人员表示,他们预计未来将测试MASS在自然语言理解任务中的表现,并希望将MASS的应用领域扩展到包括语音、视频等其他序列到序列生成任务。
如果您有互联网问题,也可以咨询我,谢谢!如果你也想一起学习人工智能,欢迎留言交流。