摘要: 0 简述 Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。 并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。 编码组件部分由一堆编码器(encoder)构成(论文中是将6个编码器叠在一起——数字 阅读全文
posted @ 2019-10-29 17:33 山竹小果 阅读(3577) 评论(1) 推荐(2) 编辑