笔记 李宏毅Transformer讲解
Hung-yi Lee李宏毅的课,没有废话,重难点都讲了,可以说是非常棒了
视频地址https://www.youtube.com/watch?v=ugWDIIOHtPA&ab_channel=Hung-yiLee
1. Seq2Seq采用RNN不能并行化,使用CNN代替RNN
例如CNN三角形选取旁边3个ai, 每个三角形(RNN)不需要等其他三角形计算完再计算,因此可以并行化
2. 记住有一种新的layer,叫做Self-Attention Layer,可以代替RNN
输入输出也与RNN一样,都是Sequence
biRNN虽然也可以获得全部输入信息,但是Self-Attention可以并行化啊
3. Self-Attention是怎么做的呢?
q, k其实都是a乘以一个矩阵
q, k是怎么用的呢?
q去与每一个k做点乘得到权重,除以sqrt(d)是为了消除点乘带来的常数放大
拿到权重系数alpha有什么用呢?
首先进行一个softmax
然后与每个v相乘,再相加,得到bi
同样的方法可以得到b2
这样b1, b2, b3, b4都能被并行的算出来
4. 将b1, b2, b3, b4的计算合成为矩阵计算
首先得到K, V, Q
计算alpha1系列:
同理可计算alpha2, alpha3,alpha4
A经过softmax得到bar(a),
再将得到的系数矩阵与V相乘,得到bi,bi组成的矩阵记为O
整个过程如图:
反正最后就是几个矩阵乘法
5. Self-Attention的一个变形: Multi-head Self-Attention
n头机制就是n个W矩阵,得到n个q, k, v
这里以n=2为例
这样的话对于ai能得到两个bi,bi_1和bi_2
我们可以将两个bi concatenate(连接)起来 ,但是如果维度你不喜欢,乘以一个矩阵使它变成你想要的维度
Multi-head有什么好处呢?也就是为什么要做Multi-head?
有些head是看距离比较远的信息,有些head是看周围的信息,这样的话每个head都能学到一些信息
6. Position embedding为什么是与ai直接相加?
首先为什么需要position embedding?因为在做attention的时候不管是远处还是邻近都是同样的对待,同样的做attention,这样就失去了原有的位置信息
其次,位置和值相加,代表着什么?为什么能这么做?李宏毅提供了一个与原paper不一样的理解角度,最终得到的运算是一样的,但讲法不一样
如果对xi append 一个one-hot的位置编码,与矩阵W相乘,根据矩阵的分块乘法,这等于两者分开相乘再相加
这两部分其实就相当于ai和ei,所以在可以相加
下面是看不懂的W_p的可视化hhh
7. Self-Attention用于Seq2Seq是什么样子的..
传统的Seq2Seq:内部使用的RNN
使用Self-Attention后:就是用Self-Attention layer代替RNN layer
8. Transformer中的encoder和decoder详解
encoder: 包括Multi-head Attention层、Add层、Norm层
Multi-head Attention层得到的bi的维度,经过映射,和self-Attention是一样的;
Add层是有一个残差加入;
Norm层不是用的Batch norm而是Layer norm,Layer norm经常用于RNN中;
Feed forward层会对每个bi进行一些处理;
decoder: 与encoder相比,多的新结构是Mask multi-head attention,其实就是只用到前面已经生成的output来参与attention,这也很显然啊,还没有产生出来的东西怎么拿来用啊...
9. Attention visualization
在原始paper的最终版本附有一些可视化
两个word之间都会计算权重,weight越大线条越粗
有一个非常神奇的现象:Attention能准确的理解"it",tired的时候it指向animal,wide的时候it指向了street,nb!!
再看看Multi-head Attention的可视化:展现不同的head的确关注到了不同的信息
10. Some Example Application
1) page2page: wiki文章生成wiki文章
没有transformer的做不了,因为Input有长达1e6个单词,RNN不能并行,训练起来太慢了
2)Universal transformer:将之前横轴是RNN,换成深度上是RNN