Attention Is All You Need论文报告

论文标题：Attention Is All You Need

作者：Aravind Srinivas

作者单位/个人主页：https://dblp.uni-trier.de/pid/26/9012.html

论文档次：人工智能领域的A类会议,机器学习领域顶级会议——NIPS收录，CoRR abs收录

论文引用量：1173

1.摘要

主流的序列模型基于复杂的递归或卷积神经网络，其中包含一个编码器和解码器，这些模型中性能最好的模型利用注意力机制连接编码器和解码器。作者提出了一种新的网络结构Transformer，该网络结果摒弃了循环和卷积。解决了以为模型学习特征丢失和静态特征的问题。该模型在WMT2014英法翻译比赛中取得最佳成绩。

2.问题是什么？

摒弃了以往序列模型中出现的循环和卷积，构建一套更加简洁的模型。解决了以往主流模型的特征丢失和静态特征学习的问题。

3. 项目背景

主流的序列模型将注意力机制与循环神经网络（例如LSTM）结合使用

4. 解决方案

作者提出了Transformer模型，即一种完全基于注意力机制的第一序列转换模型，用多头自注意力机制取代了编码器-解码器体系结构中最常用的循环层，这样既摒弃了复杂的循环、卷积神经网络，又能解决特征丢失和静态特征的问题。

5. 作者的核心思想、创新点

多头注意力机制取代了编码器-解码器体系结构中最常用的循环层

6.实验及结论

在WMT 2014英德翻译任务中，Transformer取得了最高的BLUE评分。且当时比赛的Transformer规模是最小的，后续作者所在团队扩建了Transformer的规模并对比赛语料进行了验证，取得了更高的BLUE成绩。此外，由于摒弃了循环神经网络结构，Transformer模型的收敛速度远高于以往的基于循环神经网络的序列模型，且Transformer模型的部署较为简便。

7.对你的启发

Transformer模型横空出世直接对标基于循环神经网络的序列模型，剑锋直指LSTM。在序列模型上，Transformer几乎是业界最顶尖的模型，并广泛应用于翻译任务中。此外，最为重要的是，Transformer模型中多头注意力机制的出现解决了特征学习中的棘手问题，这给后续很多的神经网络模型带来的启发，例如著名的Bert就是基于Transformer模型的Encode端。目前，Transformer模型的扩展主要集中体现在语义模型上面，个人阅读过一些文献在融合Transformer之后都取得了较好的效果。因此，这篇论文启发我是否考虑在自己的研究方向上利用Transformer的多头注意力机制加强模型的特征学习能力，从而取得更好的效果。目前，个人也正在考虑这个问题并尝试实现。

posted @ 2021-02-06 20:19 丸子粥阅读(282) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Attention Is All You Need论文报告

公告