摘要: 在研究自注意力时,有很多的名词需要我们着重的关注,比如填充掩码,前瞻掩码等等,但网上没有太多注意力掩码的教程和它是如何工作的信息,另外还有以下的细节需要详细的解释: 为什么要对多个层应用注意力掩码?、 为什么不沿键和查询应用注意力掩码? 键、查询和值权重是否混淆了原始矩阵的序列顺序? 所以本篇文章将 阅读全文
posted @ 2022-10-12 13:01 deephub 阅读(42) 评论(0) 推荐(0) 编辑