摘要: Transform网络首先构建编码器如下 首先将输入进行多头注意力转换,然后放入前向传播网络。这个过程会重复N次(N的取值一般为6) 在翻译的时候,我们首先将句子开始标识作为输入,输入进解码器,解码器首先会将输入进行多头注意力转换,然后会将编码器的输出一起,再进行多头注意力的 阅读全文
posted @ 2025-02-24 23:19 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 多头注意力其实就是将普通注意力机制进行多次,每次都得到一个结果,然后最终将这些结果直接用pd.concat拼接起来,然后再乘以一个矩阵即可,如下 实际中,我们不会采取for循环计算多个头,而是直接采取并行计算 阅读全文
posted @ 2025-02-24 22:54 最爱丁珰 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 假设现在有一个句子:Jane visited Afica last September. 那么到底是将Afica当做一个大洲处理还是当做一个度假胜地处理呢?这个是要就要去考察上下文了。普通的RNN是没办法考虑下文的,双向RNN又只能一个词一个词的计算,而自注意力机制就可以并行计算,如下 自注意力要计 阅读全文
posted @ 2025-02-24 15:46 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 注意CNN也是有位置信息的,同一个卷积运算中可能没有位置信息,但是不同卷积运算由于窗口的移动,也是有位置信息的 正文的第一句话“在处理词元序列时,循环神经网络是逐个的重复地处理词元的, 而自注意力则因为并行计算而放弃了顺序操作。”的意思见10.6.1的博文。所以自注意力丢失了对序列固有顺序的显式依赖 阅读全文
posted @ 2025-02-24 14:40 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 首先,RNN是逐个处理词元的,这个部分应该是指传统的RNN模型,比如LSTM或GRU,它们是按时间步依次处理输入序列的,每个时间步只处理一个词元,并且当前的输出依赖于前一个时间步的隐藏状态。所以它的处理是顺序的,不能同时处理后面的词元,必须一个接着一个来。这样做的好处是能够捕捉到序列中的时间依赖关系 阅读全文
posted @ 2025-02-24 14:24 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示