摘要:
Attention Is All You Need 摘要 针对序列转录模型,提出一个新的简单网络结构Transformer,基于纯注意力机制构造的encoder-decoder,不用卷积和RNN,并行度更高训练更快。 导言 当前(2017)主流的序列转录模型:RNN,LSTM,GRU RNN缺点:从 阅读全文
摘要:
在看Transformer之前,建议先学习一下Self-attention。 同样,这边笔记是参考李宏毅老师的课程和ppt,感兴趣的可以去看原视频~ 补充了Transformer论文精读笔记,建议结合本文食用: ) Sequence-to-Sequence 没错!Transformer是一个sequ 阅读全文