注意力机制 transformer

https://jalammar.github.io/illustrated-transformer/
X就是输入的向量，第一步就是创建三个输入向量qkv

第二步是计算分数：分数决定了对输入句子的其他部分的关注程度。
分数是通过查询向量与我们要评分的各个单词的键向量的点积来计算的。因此，如果我们处理位置#1中单词的自注意力，第一个分数将是q1和k1的点积。第二个分数是q1和k2的点积。

第三步和第四步是将分数除以 8（论文中使用的关键向量维度的平方根 – 64。这会导致梯度更稳定。这里可能还有其他可能的值，但这是默认），然后将结果传递给 softmax 运算。 Softmax 对分数进行归一化，使它们全部为正值并且加起来为 1。