GPT前世今生-transformer-注意力机制

GPT前世今生-transformer-注意力机制

背景:

心理学知识,随意线索和非随意线索。

 

启发:

注意力机制中概念:

  query:你的要求 查询的东西。如问“你要干嘛?”

  key:如杯子,本子

  value:可以也是杯子本子,也可以是对应的分值(即注意力重要程度)

数学:

  f(x) = xi,yi,即就是yi    函数表示 给定一个query x,f函数会找到它所最关注的xi,yi

深度学习原理(猜想):

  cnn可以抽取feature,那么每个feature就是query,在下一个卷积/或别的运算时,求f(query) = 最关注的权值。

原始做法 非参数注意力池化层:

  

 

 其中K 为kernel。

  可以是高斯kernel, 本质度量x与xi的相近程度, 这里过程就类似knn找到这个最近xi。

 

 

 

若想训练,则可以添加参数:

 

 

小结:注意力机制可以写为

 

其中α就是对于每个yi值的权重。

 那么问题是:

  1 如何确定 x呢,  又如何确定 xi呢? 确定了xi  如何设定对应的yi value呢

  加入x为 feature, x为后面的计算图,位置就是xi, 里面的值就是yi吗?

注意力层:

 

权重α 是 softmax(注意力分数) 

  

原理图:

 

 

  注意力分数:

  如何拓展为高维 向量

 

 扩展高维常见两种计算方法:

  ->方法一 等价于query和key 输入隐藏层大小为h,输出为1 的mlp。

 

 

 

 

2  query 与key 内积

 

总结:

 注意力分数是query与key的相似度, 注意力权重是分数的softmax结果。

 

posted on 2023-03-28 09:49  lexn  阅读(190)  评论(0编辑  收藏  举报

导航