摘要: 1.Transformer原理: 一种完全基于Attention机制来加速深度学习训练过程的算法模型;Transformer最大的优势在于其在并行化处理上做出的贡献。 1.1 网络结构 transformer由2个部分组成,一个Encoders和一个Decoders。每个Encoders中分别由6个 阅读全文
posted @ 2020-08-03 20:16 DHuifang004 阅读(748) 评论(0) 推荐(0) 编辑