摘要: 整体结构 注意: 原始论文中的 自注意力 和 多头注意力的 Q, K, V矩阵的位置是不一样的 自注意力 初始的Q, K, V矩阵都是一样的数据: 文本的embedding矩阵, 只是通过了不同的Linear处理. 多头注意力 def forward(self, q, k, v, mask=None 阅读全文
posted @ 2024-04-20 21:21 漫漫长夜何时休 阅读(6) 评论(0) 推荐(0) 编辑