摘要: Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。 它是由编码组件、解码组件和它们之间的连接组成。 编码组件部分由一堆编码器(6个 encoder)构成。解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。 所有的编 阅读全文
posted @ 2019-03-28 15:01 cup_leo 阅读(4199) 评论(0) 推荐(0) 编辑