[基础] Transformer
Transformer
)
名称解释:
Self-Attention:
类似于CNN里面的Conv层,是Transformer中重复次数最多的特征提取Layer。
Multi-Head Attention:
相对于Self-Attention,将每个节点外接多个q、k、v head。
Cross Attention:
Decoder提取Encoder输出特征的桥梁,原理是用Decoder的q去query Encoder输出特征的k得到权重,并将Encoder所有输出特征v进行加权平均。
LayerNorm:
将单个样本特征进行均值方差归一化的Layer
FFN(Feed Forward Network):
前馈网络,构成是 FC + Relu + FC。
Position Encoding:
因为Self-Attention在前后特征融合时,是没有考虑时序信息的(加权平均过程,加法满足交换律),故词之间交换顺序结果也是一样的,比如,“我欠你100元”,与 “你欠我100元”使用Self-Attention算出的结果一样,但意思确是千差万别。所以需要手工引入Position信息,以下是标准positionEncoding方式。
Q&A
Q: Encoder与Decoder差别有什么差别?
a. Decoder中间需要使用cross attention从encoder输出提取信息。
b. Decoder首层使用Masked MultiHead Attention,不断将已经回归出来的结果作为新的输入,未回归到的位置被Mask掉,如此递归直到预测到End截止符。
c. Encoder适合Seq2Seq任务,Decoder适合AR自回归任务。
Q:GPT是Decoder-only网络结构,那么是否不用Encoder? 用户Prompt信息如何提取?
参考信息
李宏毅机器学习
一文通透位置编码
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
2017-03-04 opencv python基本操作
2017-03-04 opencv c++实用操作
2017-03-04 opencv c++基本操作
2017-03-04 opencv安装
2017-03-04 matlab安装及使用
2017-03-04 matlab实用命令
2017-03-04 matlab基本指令