transformer
self_attention
self_Attention
Query和Key作用得到的attention权值会作用到Value
Key和Value本质上对应了同一个Sequence在不同空间的表达。缩放因子的作用是归一化
多头Attention(Multi-head Attention)
Scaled Dot-Product Attention 是一种注意力机制,由 Attention Is All You Need 一文中提出,其中点积会被缩放
transformer
Transformer模型属于自回归模型,也就是说后面的token的推断是基于前面的token的。
transformer采用encoder-decoder架构
Encoder层引入了Muti-Head机制
Decoder端的Mask的功能是为了保证训练阶段和推理阶段的一致性
transformer模型由 L个相同的层组成,每个层分为两部分:self-attention块和MLP块
self-attention 模型
参数权重矩阵和偏置 QKV
输出权重矩阵和偏置 Wo
MLP块由2个线性层组成
self-attention块和MLP块各有有一个layer normalization,
包含了2个可训练模型参数 缩放参数 平移参数
行编码同时捕获位置信息的Positional Embedding
Encoder部分中只存在self-attention,
Encoder具有两层结构,self-attention和前馈神经网络
Decoder部分中存在self-attention和cross-attention(encoder-decoder-attention)
Decoder接受output输入的同时接受encoder的输入,帮助当前节点获取到需要重点关注的内容
流程
前馈神经网络 Feed Forward Networ
归一化 Layer Normalization
残差连接 Residual Connection
位置编码 Positional Embedding
self_attention
1. embeddingembedding序列传递到Transformer的输入
每个 embeddingembedding进行三次独立的线性变换,从而生成三个向量—— query key value。
通过与三个权重矩阵相乘得到(权重矩阵权重需要学习)
2. 进行Scaled Dot-Product Attention
缩放后的注意力分数(scaled attention score
3.Output每个位置 i 是由value的所有位置的vector加权平均之后的向量
Self Attention: 查询、键和值都来自同一个输入序列
Multi-Head Attention 一. 多头注意力
输入序列首先通过三个不同的线性变换层分别得到Query、Key和Value。然后,
这些变换后的向量被划分为若干个“头”,每个头都有自己独立的Query、Key和Value矩阵。
对于每个头,都执行一次Scaled Dot-Product Attention(缩放点积注意力)
所有头的输出会被拼接(concatenate)在一起,然后再通过一个线性层进行融合,得到最终的注意力输出向量
Multi-Head Self-Attention 多头自注意力(Multi-Head Self-Attention)
当应用于序列本身时,就成为多头自注意力
Cross Attention: 查询来自一个输入序列,而键和值来自另一个输入序列
跨序列的注意力
Cross-attention,也称为编码器-解码器注意力,主要出现在Transformer的解码器
是Transformer架构中的一个关键组件,主要用于在解码器中整合来自编码器的信息
编码器-解码器框架
Transformer本质上是一个Encoder-Decoder架构,由编码组件和解码组件组成,
编码组件由多层Encoder组成,解码组件由多层Decoder组成
方法论
了解一下它产生的背景、在哪类问题下产生,以及最初是为了解决什么问题而产生。
参考
Scaled Dot-Product Attention详解 https://blog.csdn.net/qq_35229591/article/details/141126250
超详细图解Self-Attention https://zhuanlan.zhihu.com/p/410776234
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
2023-02-20 Paddlepaddle_飞桨_ppcls