注意力机制最新综述:A Comprehensive Overview of the Developments in Attention Mechanism

(零)注意力模型(Attention Model)

1)本质:【选择重要的部分注意力权重的大小体现选择概率值,以非均匀的方式重点关注感兴趣的部分。

2)注意力机制已成为人工智能的一个重要概念,其在计算机视觉、自然语言处理等众多领域得到了广泛的研究和应用。

3)注意力机制模仿了生物观察行为的内部过程。例如,视觉处理系统倾向于有选择地关注图像某些部分,而忽略其他无关的信息,以一种有助于感知的方式(our visual processing system tends to focus selectively on some parts of the image, while ignoring other irrelevant information in a manner that can assist in perception.)如下图所示。

输入的某些部分比其余部分更重要,这种性质在大多数的任务中是通用和重要的,例如,在机器翻译和摘要任务(machine translation and summarization)中,只有输入序列中的特定单词可能与预测下一个单词有关。同样的,在视觉字幕(image captioning)中,输入图像中某些区域可能对于生成字幕中的下一个单词更重要。

4)注意力机制是上述直觉的具体实现:整合相关部分,使模型动态地仅关注输入的重要部分,从而更有效地实现任务(allowing the model to dynamically pay attention to only certain parts of the input )。

5)了解了注意力的起因和作用后,下面分别介绍:(一)通用注意力模型,(二)不同类型的注意力模型分类,(三)不同架构的注意力模型。

 

(一)通用注意力模型(Generalized Attention Model)

  通用的注意力模型包括两个输入:查询Query (q) 和内容Keys(表示为: k=k1, k2, , kn),而注意力模型可以看做:相对于查询 q,将 q与一系列内容Keys 的相关性 s={si}i=1n(也称为对齐),映射为注意力分布 α={αi}i=1n 的过程。注意力分布αi强调的是:相对于查询q,每个内容ki与其的相关程度。

  因此,关于两个输入 qk,通用注意力的计算过程涉及到两个计算步骤:1)确定Query和Keys的相关性,即si=s(q,ki),其中s()为对齐函数(Alignment function);2)将一系列相关程度映射为注意力分布α=p(s),其中p()为分布函数(Distribution function)。因此,注意力模型可以表示为:

 

 s_1, s_2, \ldots,s_i

k1, k2, , kn

 si=s(q,ki)

α=p(s)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

posted @   kkzhang  阅读(807)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
历史上的今天:
2020-01-06 LaTex
点击右上角即可分享
微信分享提示