注意力机制
橙色与绿色:输入的两个query。 K:key。 V:value
连线为权重,离的近的相似度高,同时权重就高,然后用权重乘以value就得到输出向量
多头注意力机制
MASK掩码:对t时刻(红色笔记)之后的数值,设为很大的负数(绿色笔记),从而将softmax变成0,起到只关注t时刻之前所有数据的作用
右边为多头注意力机制