摘要: 这里为什么要用bmm:看NWKernelRegression定义的过程,我们是将查询数定义为了批量,attention_weights在第1维度展开就可以提取每一个查询,将所有加了权的键变成行向量;values在最后一个维度展开,就将所有值变成了一个列向量;此时两者相乘就是预测值 阅读全文
posted @ 2025-02-26 15:15 最爱丁珰 阅读(4) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示