摘要: 参考资料和说明都挺清楚的: 一.Attention is all you need论文中讲模型分为多个头,形成多个子空间,每个头关注不同方面的信息。如果Multi-Head作用是关注句子的不同方面,那么不同的head就应该关注不同的Token;当然也有可能是关注的pattern相同,但是关注的内容不 阅读全文
posted @ 2021-09-22 17:00 凌波微步_Arborday 阅读(849) 评论(0) 推荐(0) 编辑