Attention Is All You Need论文报告
论文标题:Attention Is All You Need
作者:Aravind Srinivas
作者单位/个人主页:https://dblp.uni-trier.de/pid/26/9012.html
论文档次:人工智能领域的A类会议,机器学习领域顶级会议——NIPS收录,CoRR abs收录
论文引用量:1173
1.摘要
主流的序列模型基于复杂的递归或卷积神经网络,其中包含一个编码器和解码器,这些模型中性能最好的模型利用注意力机制连接编码器和解码器。作者提出了一种新的网络结构Transformer,该网络结果摒弃了循环和卷积。解决了以为模型学习特征丢失和静态特征的问题。该模型在WMT2014英法翻译比赛中取得最佳成绩。
2.问题是什么?
摒弃了以往序列模型中出现的循环和卷积,构建一套更加简洁的模型。解决了以往主流模型的特征丢失和静态特征学习的问题。
3. 项目背景
主流的序列模型将注意力机制与循环神经网络(例如LSTM)结合使用
4. 解决方案
作者提出了Transformer模型,即一种完全基于注意力机制的第一序列转换模型,用多头自注意力机制取代了编码器-解码器体系结构中最常用的循环层,这样既摒弃了复杂的循环、卷积神经网络,又能解决特征丢失和静态特征的问题。
5. 作者的核心思想、创新点
多头注意力机制取代了编码器-解码器体系结构中最常用的循环层
6.实验及结论
在WMT 2014英德翻译任务中,Transformer取得了最高的BLUE评分。且当时比赛的Transformer规模是最小的,后续作者所在团队扩建了Transformer的规模并对比赛语料进行了验证,取得了更高的BLUE成绩。此外,由于摒弃了循环神经网络结构,Transformer模型的收敛速度远高于以往的基于循环神经网络的序列模型,且Transformer模型的部署较为简便。
7.对你的启发
Transformer模型横空出世直接对标基于循环神经网络的序列模型,剑锋直指LSTM。在序列模型上,Transformer几乎是业界最顶尖的模型,并广泛应用于翻译任务中。此外,最为重要的是,Transformer模型中多头注意力机制的出现解决了特征学习中的棘手问题,这给后续很多的神经网络模型带来的启发,例如著名的Bert就是基于Transformer模型的Encode端。目前,Transformer模型的扩展主要集中体现在语义模型上面,个人阅读过一些文献在融合Transformer之后都取得了较好的效果。因此,这篇论文启发我是否考虑在自己的研究方向上利用Transformer的多头注意力机制加强模型的特征学习能力,从而取得更好的效果。目前,个人也正在考虑这个问题并尝试实现。