【Transformer】01-TransFormer架构解析
Transformer模型的作用:
基于seq2seq架构的transformer模型可以完成NLP领域研究的典型人物,如机器翻译,文本生成等,同时又可以构造预训练语言模型,用于不同任务的迁移学习
声明:
在接下来的架构分析中,我们将假设的Tranformer模型架构从一种语言文本到另一种语言文本的翻译工作,因为很多命名方式遵循NLP的规则,如:Embedding层
将乘坐文本嵌入层,Embedding层产生的张量成为词嵌入张良,他的最后一维将称作词向量等
transformer总体架构图:
transformer总体架构可以分为四个部分:
- 输入部分
- 输出部分
- 编码器部分
- 解码器部分
输入部分包括:
源文本嵌入层及其位置编码器
目标文本嵌入层及其位置编码器
输出部分:
线性层
softmax处理器
编码器部分:
- 由N个编码器堆叠而成
- 每个编码器层由两个子层连接结构组成
- 第一个子层连接结构包括了一个多头自注意力规范化层以及一个残差连接
- 第二个子层连接结构包括了一个前馈全连接子层和规范化层以及一个残差连接
解码器部分:
- 由N个解码器层堆叠而成
- 每个解码器由三个子层连接结构组成
- 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
- 第二层连接结构包括了一个多头注意力子层和规范化层以及一个残差连接
- 第三个子层连接结构包括了一个前馈全连接子层和规范化层以及一个残差连接
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!