191 Transform网络

Transform网络首先构建编码器如下
image
首先将输入进行多头注意力转换,然后放入前向传播网络。这个过程会重复N次(N的取值一般为6
在翻译的时候,我们首先将句子开始标识作为输入,输入进解码器,解码器首先会将输入进行多头注意力转换,然后会将编码器的输出一起,再进行多头注意力的转换,最后再将输出放进前向传播网络。这个过程也会重复多次,如下
image
然后生成了预测单词,在预测单词加入输入并重复上述步骤如下
image
再重复上述过程如下
image
一直直到完成翻译为止
Transforms需要添加位置编码,因为注意力机制同时处理所有单词,没办法像RNN一样知道各个单词的位置,而单词的位置又很重要,所以需要添加位置编码
位置编码的方式就是使用三角函数,这样子还有一个好处就是不同的单词的位置编码一定不同
我们也会在Transform中使用残差网络;同时会使用BatchNorm;最后还会加上Softmax层和一个线性层,如下
image
最后视频讲了个掩码Softmax,没太听懂

posted @   最爱丁珰  阅读(7)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
历史上的今天:
2024-02-24 Construct Tree
2024-02-24 Construct Matrix
2024-02-24 Yet Another Inversions Problem
2024-02-24 Watering an Array
2024-02-24 Erase First or Second Letter
点击右上角即可分享
微信分享提示