2025 年 2月 26 日随笔档案 - 最爱丁珰 - 博客园

2025年2月26日

10.2.4 带参数注意力汇聚

摘要：这里为什么要用bmm：看NWKernelRegression定义的过程，我们是将查询数定义为了批量，attention_weights在第1维度展开就可以提取每一个查询，将所有加了权的键变成行向量；values在最后一个维度展开，就将所有值变成了一个列向量；此时两者相乘就是预测值阅读全文

posted @ 2025-02-26 15:15 最爱丁珰阅读(4) 评论(0) 推荐(0) 编辑

公告

昵称：最爱丁珰
园龄： 3年7个月
粉丝： 3
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

推荐排行榜