《Deepening Hidden Representations from Pre-trained Language Models for Natural Language Understanding》-阅读心得
文章名《Deepening Hidden Representations from Pre-trained Language Models for Natural Language Understanding》,2019,单位:上海交大
从预训练语言模型中深化语言表示
摘要:基于Transformer的预训练语言模型已经被证明在语境化语言表征方面是有效的,然而,当前的方法在下游任务的微调过程中都仅仅是利用编码器的最后一层输出信息。那么,只是单纯的利用单一层的输出会限制预训练表征的能力,因此,我们通过在显式隐式表示提取器(HIRE)中融合隐式表示来加深模型所学习的表示,可以自动的吸收最后一层输出进行互补表示,利用RoBERTa作为骨干编码器,提出了预训练语言模型的改进方案。
本方法中包括两个主要的额外组件:1.隐含表征提取器可以动态地学习完整的表征信息,然而最后一层无法有效捕获,所以在编码器旁边放置两层双向GRU,将每一层的输出汇总成一个向量,用于计算贡献分数。2.融合层通过两个不同的功能步骤将HIRE提取的隐藏信息与Transformer最终层的输出进行集成,从而形成一种精细的语境化语言表示。
Hidden Representation Extractor:用于提取Transformer编码器的额外信息,收集到的特征再和编码器的输出结合能够达到信息互补的作用,作者称之为:complementary representation。如下图所示,输出特征A:
Fusion Layer:融合Transformer编码器和Hidden提取器的特征。对于基础Transformer输出的特征R不是直接结合特征A进入到任务输出层,而是通过特征之间的互补产生特征M:
分别拼接这4个特征,后面两个分别是对应元素上的求和、求点积,每个维度为n*d,拼接起来为n*4d
最后对特征M再接一个双向GRU,相当于再来一次特征融合,增加了特征的存储能力:
作者认为:F才是理想的输入文本的精确通用表示
Output layer:是明确任务输出层,可以根据不同的任务设置。就拿分类任务来说,将F的第一排特征提取出来作为C,再加非线性,输出和类别对应,用如下公式:
对Q映射到类别上,得到一个概率分别预测类别:
实验结果
这篇文章是在结构上的优化,通过提高网络的复杂度获取,深化特征提取。如果网络真有那么复杂,运算性能会受到很大影响。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
2018-02-06 python threading.thread