alex_bn_lee

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

【753】Transformer模型

参考:李宏毅-Transformer【动画细致,有助于理解Self-Attention】

参考:The Illustrated Transformer【详细到一些参数,动画也很好】

参考:Transformer论文逐段精读【论文精读】


李宏毅老师深入浅出讲解transformer模型:https://www.bilibili.com/video/BV1Wq4y1v7DE?share_source=copy_web

论文:Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-December(Nips), 5999–6009.

 

背景与逻辑

用attention机制替代RNN(处理有序列的数据,seq2seq)

RNN的问题在于不能并行,但CNN只能观察到局部;而用attention机制相当于叠加多层的CNN,从而扩大感受野

但是必须要叠加多层才能看到更大的感受野。因此用self-attention layer来替代,可以看到所有的seq,而同时也可以并行。

 

Self-attention机制

  • 给每个input一个embedding X:单词emb和位置emb,得到的emb结果叫a

  • 对每个a,需要三个内容q/k/v,表示的是各个input 之间的关联性(attention系数);直观理解是不同的词之间的关系

    产生b1的时候 已经看到了全局所有的向量,天涯若比邻。如果只想看到局部的,也可以让中间某些系数为0即可

  • 可以用矩阵运算表示,因此可以并行

Transformer模型

seq2seq:encoder + decoder

 

 

posted on   McDelfino  阅读(107)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2020-10-17 【492】状态转移:初识马尔科夫链
2019-10-17 【443】Tweets Analysis Q&A
2016-10-17 【229】Raster Calculator - 栅格计算器
点击右上角即可分享
微信分享提示