【753】Transformer模型
参考:李宏毅-Transformer【动画细致,有助于理解Self-Attention】
参考:The Illustrated Transformer【详细到一些参数,动画也很好】
李宏毅老师深入浅出讲解transformer模型:https://www.bilibili.com/video/BV1Wq4y1v7DE?share_source=copy_web
论文:Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-December(Nips), 5999–6009.
背景与逻辑
用attention机制替代RNN(处理有序列的数据,seq2seq)
RNN的问题在于不能并行,但CNN只能观察到局部;而用attention机制相当于叠加多层的CNN,从而扩大感受野
但是必须要叠加多层才能看到更大的感受野。因此用self-attention layer来替代,可以看到所有的seq,而同时也可以并行。
Self-attention机制
-
给每个input一个embedding X:单词emb和位置emb,得到的emb结果叫a
-
对每个a,需要三个内容q/k/v,表示的是各个input 之间的关联性(attention系数);直观理解是不同的词之间的关系
产生b1的时候 已经看到了全局所有的向量,天涯若比邻。如果只想看到局部的,也可以让中间某些系数为0即可
-
可以用矩阵运算表示,因此可以并行
Transformer模型
seq2seq:encoder + decoder
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· .NET10 - 预览版1新功能体验(一)
2020-10-17 【492】状态转移:初识马尔科夫链
2019-10-17 【443】Tweets Analysis Q&A
2016-10-17 【229】Raster Calculator - 栅格计算器