Paper Reading

论文精读

论文精读方法参考B站UP主跟李沐学AI
阅读顺序:Abastract -> Introduction -> Conclusion -> Related Work

ResNet

网络结构

核心模块:Residual Block

img

img

代码实现

img
img

Transformer

网络结构

img

Multi-Head Attention

Attention(Q,K,V)=softmax(QKTdkV)

  • Q(Query), K(Key), V(Value)

    Q 相当于近似的 K

  • QKT

    向量内积:ab=abcos<a,b>

    两个向量相似度越大的时候向量的内积越大,反之则越小;当两个向量正交时内积为0

对于每一个输入的Vectorized Token进行线性映射都会得到对应的三个矩阵WQ, WK, WV,这三个矩阵分别与输入的Vector相乘即可得到对应的Q, K, V,之后再按照上面的注意力计算公式进行计算即可

备注:线性映射(nn.Linear)实际作用就是将输入张量乘以一个高维权重矩阵Weight然后再加上一个偏置Bias,因此上面的WQ, WK, WV实际都是线性层中的权重参数

img

  1. Self-Attention

  2. Cross-Attention

Feed-Forward Networks

FFN(x)=max(0,xW1+b1)W2+b2=Linear(ReLU(Linear(x)))

Positional Encoding

位置编码是为了处理连续的时间序列数据,区别于传统的RNN模型,第 t 时间步的计算依赖于第 t1 步的计算结果,难以进行并行计算

PE(pos,2i)=sin(pos/100002i/dmodel)

PE(pos,2i+1)=cos(pos/100002i/dmodel)

pos 位置处的 token 编码成长度为 dmodel 的向量,偶数位置求sine,奇数位置求cosine,保证最后得到的每一个 token 编码后的向量都是不同的(但是长度相同)

Vision Transformer

Attention机制的由来

  1. 原始RNN网络输入张量和输出张量的长度是相同的
  2. Seq2Seq模型的输入和输出长度是不相同的

img

img

BN 和 LN 的区别

img

Batch Normalization是在每一个batch中抽取每个位置的张量求均值和方差

Layer Normalization是在每一个layer中抽取所有的张量求均值和方差

img

DeiT

知识蒸馏

简单来讲就是使用一个参数量更大,效果更好的模型作为Teacher model来辅助训练一个参数量更小的Student model模型

GPT1

LSH算法:判断文章的相似度(通过word的集合进行判断)

Beam Search ?

posted @   MaximeSHE  阅读(6)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
点击右上角即可分享
微信分享提示