shiwuxian

导航

 

注意力机制

橙色与绿色:输入的两个query。  K:key。  V:value

连线为权重,离的近的相似度高,同时权重就高,然后用权重乘以value就得到输出向量

 

 

多头注意力机制

MASK掩码:对t时刻(红色笔记)之后的数值,设为很大的负数(绿色笔记),从而将softmax变成0,起到只关注t时刻之前所有数据的作用

右边为多头注意力机制

 

 

posted on 2022-03-31 17:26  SHIWUXIAN  阅读(1052)  评论(0编辑  收藏  举报