摘要: from: https://blog.csdn.net/weixin_40633696/article/details/121810403 文章目录1. Self-Attention 的核心是什么?2. 不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵(W Q , W K , 阅读全文
posted @ 2022-11-14 17:25 凌波微步_Arborday 阅读(807) 评论(0) 推荐(0) 编辑