摘要: Transformer:https://blog.csdn.net/qq_37541097/article/details/117691873,总结: Self-Attention:输入n个向量,每个向量得到一组(q,k,v),通过Attention(Q, K,V)将不同向量的(q,k,v)进行相互 阅读全文
posted @ 2023-01-03 11:58 好人~ 阅读(454) 评论(0) 推荐(0) 编辑