摘要: Transformer 自注意力机制 自注意力机制核心就是计算句子在编码过程中每个位置上的注意力权重,然后再以权重和的方式计算整个句子的隐含向量表示 attention核心? self-attention 核心公式: \(\text{Attention}(Q,K,V) = \text{softmax 阅读全文
posted @ 2024-03-25 17:42 野哥李 阅读(50) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示