图解Transformer

前言

Attention这种机制最开始应用于机器翻译的任务中，并且取得了巨大的成就，因而在最近的深度学习模型中受到了大量的关注。在在这个基础上，我们提出一种完全基于Attention机制来加速深度学习训练过程的算法模型-Transformer。事实证明Transformer结构在特定任务上已经优于了谷歌的神经网络机器翻译模型。但是，Transformer最大的优势在于其在并行化处理上做出的贡献。谷歌也在利用Transformer的并行化方式来营销自己的云TPU。所以，现在让我们一步一步剖析Transformer的神秘面纱，让我看看他是怎么一步一步训练的。

Transformer在Goole的一篇论文Attention is All You Need被提出，为了方便实现调用Transformer Google还开源了一个第三方库，基于TensorFlow的Tensor2Tensor，一个NLP的社区研究者贡献了一个Torch版本的支持：guide annotating the paper with PyTorch implementation。这里，我想用一些方便理解的方式来一步一步解释Transformer的训练过程，这样即便你没有很深的深度学习知识你也能大概明白其中的原理。

查看全文：https://blog.csdn.net/qq_41664845/article/details/84969266

论文地址：https://arxiv.org/abs/1706.03762

posted @ 2019-04-02 15:36 听雨声阅读(565) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

听雨声

图解Transformer

图解Transformer

公告