transformer

self_attention

    self_Attention 
      Query和Key作用得到的attention权值会作用到Value
        Key和Value本质上对应了同一个Sequence在不同空间的表达。缩放因子的作用是归一化
    
    多头Attention(Multi-head Attention)

Scaled Dot-Product Attention 是一种注意力机制,由 Attention Is All You Need 一文中提出,其中点积会被缩放

transformer

 Transformer模型属于自回归模型,也就是说后面的token的推断是基于前面的token的。
  transformer采用encoder-decoder架构
     Encoder层引入了Muti-Head机制
     Decoder端的Mask的功能是为了保证训练阶段和推理阶段的一致性

transformer模型由 L个相同的层组成,每个层分为两部分:self-attention块和MLP块
    self-attention 模型
	   参数权重矩阵和偏置 QKV
	   输出权重矩阵和偏置 Wo
	MLP块由2个线性层组成
	
	self-attention块和MLP块各有有一个layer normalization,
	   包含了2个可训练模型参数  缩放参数  平移参数
行编码同时捕获位置信息的Positional Embedding

Encoder部分中只存在self-attention,
      Encoder具有两层结构,self-attention和前馈神经网络

Decoder部分中存在self-attention和cross-attention(encoder-decoder-attention)	
 Decoder接受output输入的同时接受encoder的输入,帮助当前节点获取到需要重点关注的内容

流程

前馈神经网络 Feed Forward Networ
归一化  Layer Normalization
残差连接  Residual Connection
位置编码  Positional Embedding
self_attention 
    1. embeddingembedding序列传递到Transformer的输入
	    每个 embeddingembedding进行三次独立的线性变换,从而生成三个向量—— query key value。
		通过与三个权重矩阵相乘得到(权重矩阵权重需要学习)
	2. 进行Scaled Dot-Product Attention
	    缩放后的注意力分数(scaled attention score
    3.Output每个位置 i 是由value的所有位置的vector加权平均之后的向量
   Self Attention: 查询、键和值都来自同一个输入序列

Multi-Head Attention  一. 多头注意力
 输入序列首先通过三个不同的线性变换层分别得到Query、Key和Value。然后,
	  这些变换后的向量被划分为若干个“头”,每个头都有自己独立的Query、Key和Value矩阵。
	  对于每个头,都执行一次Scaled Dot-Product Attention(缩放点积注意力)
    所有头的输出会被拼接(concatenate)在一起,然后再通过一个线性层进行融合,得到最终的注意力输出向量
  Multi-Head Self-Attention 多头自注意力(Multi-Head Self-Attention)
   当应用于序列本身时,就成为多头自注意力
  Cross Attention: 查询来自一个输入序列,而键和值来自另一个输入序列
   跨序列的注意力

‌ Cross-attention‌,也称为编码器-解码器注意力,主要出现在Transformer的解码器
是Transformer架构中的一个关键组件,主要用于在解码器中整合来自编码器的信息

编码器-解码器框架	
Transformer本质上是一个Encoder-Decoder架构,由编码组件和解码组件组成,
     编码组件由多层Encoder组成,解码组件由多层Decoder组成	

方法论

 了解一下它产生的背景、在哪类问题下产生,以及最初是为了解决什么问题而产生。

参考

Scaled Dot-Product Attention详解  https://blog.csdn.net/qq_35229591/article/details/141126250
超详细图解Self-Attention https://zhuanlan.zhihu.com/p/410776234	
posted @   辰令  阅读(7)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
历史上的今天:
2023-02-20 Paddlepaddle_飞桨_ppcls
点击右上角即可分享
微信分享提示