185 注意力模型

我们利用GRU或者LSTM构建一个双向循环神经网络如下
image
然后预测的时候我们使用普通的RNN,但是这个RNN的输入取决于源句子的每一个单词的加权和。我们用y表示预测的句子,a表示输入的句子,那么也就是说我们定义αt,tyt应该对at给予的“注意力”权重(由于这里使用的是双向神经网络,于是有at=(at,at)),且满足tαt,t=1,示意图如下
image
其中ct=tαt,tat
那么怎么学习注意力权重呢?实际上,如下
image
那么et,t跟什么有关呢?不难想到,跟RNN的上一时间步的隐状态st1和输入的当前时间步单词at有关,但是我们不知道确切的函数,此时我们用一个小型神经网络去学习就好了。如下
image
这就让注意力机制有了一个缺点,就是运行该算法需要二次时间或者二次成本(注意力权重参数个数等于输入句子的长度乘以输出句子的长度
可以画出热力图如下
image
不难看出,相对应的输入和输出单词的注意力权重很高

posted @   最爱丁珰  阅读(2)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
历史上的今天:
2024-02-19 Sasha and the Wedding Binary Search Tree
2024-02-19 Sasha and the Casino
2024-02-19 Sasha and a Walk in the City
2024-02-19 CF思维题集合
2024-02-19 Sasha and the Drawing
2024-02-19 天气预报
2024-02-19 导弹防御系统
点击右上角即可分享
微信分享提示