我们登上并非我们所选择的舞台,演出并非我们所选择的剧本。|

乐池

园龄:3年4个月粉丝:0关注:7

3. 注意力机制

深度学习中的注意力机制(Attention Mechanism)是一种模仿人类视觉和认知系统的方法,它允许神经网络在处理输入数据时集中注意力于相关的部分。通过引入注意力机制,神经网络能够自动地学习并选择性地关注输入中的重要信息,提高模型的性能和泛化能力。

最典型的注意力机制包括自注意力机制、空间注意力机制和时间注意力机制

1. 自注意力机制

具体而言,对于序列中的每个元素,自注意力机制计算其与其他元素之间的相似度,并将这些相似度归一化为注意力权重。然后,通过将每个元素与对应的注意力权重进行加权求和,可以得到自注意力机制的输出。

输入整个语句的向量到self-attention中,输出对应个数的向量,再将其结果输入到全连接网络,最后输出标签。以上过程可多次重复:

1.1 运行原理

使用α表示每一个向量之间的关联程度,而也有许多方法产生,例如下图中的两个

上图左边的方法是最常用的,左乘矩阵再进行dot得到α,这也是transformer使用的方法

分别计算关联性可以得到α

谁的分数更大,谁的v就更影响结果

1.2 总结

上述过程可总结为

  • 输入矩阵I分别乘以三个W得到三个矩阵 Q,K,V
  • A=QK,经过处理得到注意力矩阵 A=softmax(QKdk)
  • 输出O=AV

Attention(Q,K,V)=softmax(QKdk)V

其中,dk 为向量的长度。

2. 多头注意力机制

多头注意力机制则是在ai乘以一个q,k,v后,会再分配多个 q,k,v,这里以2个为例,如下图所示;

参考:

  1. 强烈推荐!台大李宏毅自注意力机制和Transformer详解!

  2. 李宏毅《深度学习》- Self-attention 自注意力机制

  3. 注意力机制综述(图解完整版附代码)

本文作者:乐池

本文链接:https://www.cnblogs.com/ratillase/p/18083806

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   乐池  阅读(38)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起