2022 年 10月 12 日随笔档案 - deephub

2022年10月12日

摘要：在研究自注意力时，有很多的名词需要我们着重的关注，比如填充掩码，前瞻掩码等等，但网上没有太多注意力掩码的教程和它是如何工作的信息，另外还有以下的细节需要详细的解释：为什么要对多个层应用注意力掩码？、为什么不沿键和查询应用注意力掩码？键、查询和值权重是否混淆了原始矩阵的序列顺序？所以本篇文章将阅读全文

posted @ 2022-10-12 13:01 deephub 阅读(42) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告