摘要: 【大语言模型基础】Transformer模型Torch代码详解和训练实战 一、Transformer概述 Transformer是由谷歌在17年提出并应用于神经机器翻译的seq2seq模型,其结构完全通过自注意力机制完成对源语言序列和目标语言序列的全局依赖建模。 Transformer由编码器和解码器构成。下图展示了它的结构,其左侧和右侧分别对应着编码器(Encoder) 阅读全文
posted @ 2023-10-24 23:53 LeonYi 阅读(1147) 评论(0) 推荐(3) 编辑