《Deepening Hidden Representations from Pre-trained Language Models for Natural Language Understanding》-阅读心得

文章名《Deepening Hidden Representations from Pre-trained Language Models for Natural Language Understanding》，2019，单位：上海交大

从预训练语言模型中深化语言表示

摘要：基于Transformer的预训练语言模型已经被证明在语境化语言表征方面是有效的，然而，当前的方法在下游任务的微调过程中都仅仅是利用编码器的最后一层输出信息。那么，只是单纯的利用单一层的输出会限制预训练表征的能力，因此，我们通过在显式隐式表示提取器（HIRE）中融合隐式表示来加深模型所学习的表示，可以自动的吸收最后一层输出进行互补表示，利用RoBERTa作为骨干编码器，提出了预训练语言模型的改进方案。

本方法中包括两个主要的额外组件：1.隐含表征提取器可以动态地学习完整的表征信息，然而最后一层无法有效捕获，所以在编码器旁边放置两层双向GRU，将每一层的输出汇总成一个向量，用于计算贡献分数。2.融合层通过两个不同的功能步骤将HIRE提取的隐藏信息与Transformer最终层的输出进行集成，从而形成一种精细的语境化语言表示。

Hidden Representation Extractor:用于提取Transformer编码器的额外信息，收集到的特征再和编码器的输出结合能够达到信息互补的作用，作者称之为：complementary representation。如下图所示，输出特征A：