2025 年 2月 24 日随笔档案 - 最爱丁珰

2025年2月24日

摘要： Transform网络首先构建编码器如下首先将输入进行多头注意力转换，然后放入前向传播网络。这个过程会重复

N

次（

N

的取值一般为

6

）在翻译的时候，我们首先将句子开始标识作为输入，输入进解码器，解码器首先会将输入进行多头注意力转换，然后会将编码器的输出一起，再进行多头注意力的阅读全文

posted @ 2025-02-24 23:19 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

190 多头注意力机制

摘要：多头注意力其实就是将普通注意力机制进行多次，每次都得到一个结果，然后最终将这些结果直接用pd.concat拼接起来，然后再乘以一个矩阵即可，如下实际中，我们不会采取for循环计算多个头，而是直接采取并行计算阅读全文

posted @ 2025-02-24 22:54 最爱丁珰阅读(0) 评论(0) 推荐(0) 编辑

189 自注意力机制

摘要：假设现在有一个句子：Jane visited Afica last September. 那么到底是将Afica当做一个大洲处理还是当做一个度假胜地处理呢？这个是要就要去考察上下文了。普通的RNN是没办法考虑下文的，双向RNN又只能一个词一个词的计算，而自注意力机制就可以并行计算，如下自注意力要计阅读全文

posted @ 2025-02-24 15:46 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

10.6.3 位置编码

摘要：注意CNN也是有位置信息的，同一个卷积运算中可能没有位置信息，但是不同卷积运算由于窗口的移动，也是有位置信息的正文的第一句话“在处理词元序列时，循环神经网络是逐个的重复地处理词元的，而自注意力则因为并行计算而放弃了顺序操作。”的意思见10.6.1的博文。所以自注意力丢失了对序列固有顺序的显式依赖阅读全文

posted @ 2025-02-24 14:40 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

10.6.1 自注意力

摘要：首先，RNN是逐个处理词元的，这个部分应该是指传统的RNN模型，比如LSTM或GRU，它们是按时间步依次处理输入序列的，每个时间步只处理一个词元，并且当前的输出依赖于前一个时间步的隐藏状态。所以它的处理是顺序的，不能同时处理后面的词元，必须一个接着一个来。这样做的好处是能够捕捉到序列中的时间依赖关系阅读全文

posted @ 2025-02-24 14:24 最爱丁珰阅读(3) 评论(0) 推荐(0) 编辑

公告

昵称：最爱丁珰
园龄： 3年7个月
粉丝： 3
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

最爱丁珰

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜