[基础] Transformer

Transformer

)

名称解释：

Self-Attention:
类似于CNN里面的Conv层，是Transformer中重复次数最多的特征提取Layer。

Multi-Head Attention:
相对于Self-Attention，将每个节点外接多个q、k、v head。

Cross Attention:
Decoder提取Encoder输出特征的桥梁，原理是用Decoder的q去query Encoder输出特征的k得到权重，并将Encoder所有输出特征v进行加权平均。

LayerNorm:
将单个样本特征进行均值方差归一化的Layer

FFN(Feed Forward Network)：
前馈网络，构成是 FC + Relu + FC。

Position Encoding:
因为Self-Attention在前后特征融合时，是没有考虑时序信息的(加权平均过程，加法满足交换律)，故词之间交换顺序结果也是一样的，比如，“我欠你100元”，与 “你欠我100元”使用Self-Attention算出的结果一样，但意思确是千差万别。所以需要手工引入Position信息，以下是标准positionEncoding方式。

Q&A

Q: Encoder与Decoder差别有什么差别？
a. Decoder中间需要使用cross attention从encoder输出提取信息。
b. Decoder首层使用Masked MultiHead Attention，不断将已经回归出来的结果作为新的输入，未回归到的位置被Mask掉，如此递归直到预测到End截止符。
c. Encoder适合Seq2Seq任务，Decoder适合AR自回归任务。

Q：GPT是Decoder-only网络结构，那么是否不用Encoder? 用户Prompt信息如何提取？

参考信息

李宏毅机器学习
一文通透位置编码

posted @ 2024-03-04 23:20 fariver 阅读(13) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

fariver

[基础] Transformer

Transformer

名称解释：

Q&A

参考信息

公告