transformer

self_attention

    self_Attention 
      Query和Key作用得到的attention权值会作用到Value
        Key和Value本质上对应了同一个Sequence在不同空间的表达。缩放因子的作用是归一化
    
    多头Attention(Multi-head Attention)

Scaled Dot-Product Attention 是一种注意力机制，由 Attention Is All You Need 一文中提出，其中点积会被缩放

transformer

 Transformer模型属于自回归模型，也就是说后面的token的推断是基于前面的token的。
  transformer采用encoder-decoder架构
     Encoder层引入了Muti-Head机制
     Decoder端的Mask的功能是为了保证训练阶段和推理阶段的一致性

transformer模型由 L个相同的层组成，每个层分为两部分：self-attention块和MLP块
    self-attention 模型
	   参数权重矩阵和偏置 QKV
	   输出权重矩阵和偏置 Wo
	MLP块由2个线性层组成
	
	self-attention块和MLP块各有有一个layer normalization，
	   包含了2个可训练模型参数  缩放参数  平移参数
行编码同时捕获位置信息的Positional Embedding

Encoder部分中只存在self-attention，
      Encoder具有两层结构，self-attention和前馈神经网络

Decoder部分中存在self-attention和cross-attention(encoder-decoder-attention)	
 Decoder接受output输入的同时接受encoder的输入，帮助当前节点获取到需要重点关注的内容

流程

前馈神经网络 Feed Forward Networ
归一化  Layer Normalization
残差连接  Residual Connection
位置编码  Positional Embedding
self_attention 
    1. embeddingembedding序列传递到Transformer的输入
	    每个 embeddingembedding进行三次独立的线性变换，从而生成三个向量—— query key value。
		通过与三个权重矩阵相乘得到(权重矩阵权重需要学习)
	2. 进行Scaled Dot-Product Attention
	    缩放后的注意力分数（scaled attention score
    3.Output每个位置 i 是由value的所有位置的vector加权平均之后的向量
   Self Attention: 查询、键和值都来自同一个输入序列

Multi-Head Attention  一. 多头注意力
 输入序列首先通过三个不同的线性变换层分别得到Query、Key和Value。然后，
	  这些变换后的向量被划分为若干个“头”，每个头都有自己独立的Query、Key和Value矩阵。
	  对于每个头，都执行一次Scaled Dot-Product Attention（缩放点积注意力）
    所有头的输出会被拼接（concatenate）在一起，然后再通过一个线性层进行融合，得到最终的注意力输出向量
  Multi-Head Self-Attention 多头自注意力（Multi-Head Self-Attention）
   当应用于序列本身时，就成为多头自注意力
  Cross Attention: 查询来自一个输入序列，而键和值来自另一个输入序列
   跨序列的注意力

‌ Cross-attention‌，也称为编码器-解码器注意力，主要出现在Transformer的解码器
是Transformer架构中的一个关键组件，主要用于在解码器中整合来自编码器的信息

编码器-解码器框架	
Transformer本质上是一个Encoder-Decoder架构，由编码组件和解码组件组成，
     编码组件由多层Encoder组成，解码组件由多层Decoder组成

方法论

 了解一下它产生的背景、在哪类问题下产生，以及最初是为了解决什么问题而产生。

参考

Scaled Dot-Product Attention详解  https://blog.csdn.net/qq_35229591/article/details/141126250
超详细图解Self-Attention https://zhuanlan.zhihu.com/p/410776234

posted @ 2025-02-20 18:01 辰令阅读(70) 评论(0) 收藏举报

刷新页面返回顶部

辰令

辰时令节

transformer

self_attention

transformer

流程

方法论

参考