Hiroki

大部分笔记已经转移到 https://github.com/hschen0712/machine_learning_notes ,QQ:357033150, 欢迎交流

BPTT算法推导

随时间反向传播 (BackPropagation Through Time,BPTT)

符号注解:

  • K:词汇表的大小
  • T:句子的长度
  • H:隐藏层单元数
  • Et:第t个时刻(第t个word)的损失函数,定义为交叉熵误差Et=ytTlog(y^t)
  • E:一个句子的损失函数,由各个时刻(即每个word)的损失函数组成,E=tTEt
    注: 由于我们要推倒的是SGD算法, 更新梯度是相对于一个训练样例而言的, 因此我们一次只考虑一个句子的误差,而不是整个训练集的误差(对应BGD算法)
  • xtRK×1:第t个时刻RNN的输入,为one-hot vector,1表示一个单词的出现,0表示不出现
  • stRH×1:第t个时刻RNN隐藏层的输入
  • htRH×1:第t个时刻RNN隐藏层的输出
  • ztRK×1:输出层的汇集输入
  • y^tRK×1:输出层的输出,激活函数为softmax
  • ytRK×1:第t个时刻的监督信息,为一个one-hot vector
  • rt=y^tyt:残差向量
  • WRH×K:从输入层到隐藏层的权值
  • URH×H:隐藏层上一个时刻到当前时刻的权值
  • VRK×H:隐藏层到输出层的权值

他们之间的关系:

{st=Uht1+Wxtht=σ(st)zt=Vhty^t=softmax(zt)

其中,σ()是sigmoid函数。由于xt是one-hot向量,假设第j个词出现,则Wxt相当于把W的第j列选出来,因此这一步是不用进行任何矩阵运算的,直接做下标操作即可,在matlab里就是W(:,xt)

BPTT与BP类似,是在时间上反传的梯度下降算法。RNN中,我们的目的是求得EU,EW,EV,根据这三个变化率来优化三个参数U,V,W
注意到EU=tEtU,因此我们只要对每个时刻的损失函数求偏导数再加起来即可。
1.计算EtV

EtVij=tr((Etzt)TztVij)=tr((y^tyt)T[0zt(i)Vij0])=rt(i)ht(j)

注:推导中用到了之前推导用到的结论。其中rt(i)=(y^tyt)(i)表示残差向量第i个分量,ht(j)表示ht的第j个分量。
上述结果可以改写为:

EtV=(y^tyt)ht

EV=k=0t(y^kyk)hk

其中表示向量外积。
2.计算EtU
由于U是各个时刻共享的,所以t之前每个时刻U的变化都对Et有贡献,反过来求偏导时,也要考虑之前每个时刻U对E的影响。我们以sk为中间变量,应用链式法则:

EtU=k=0tskUEtsk

但由于skU(分子向量,分母矩阵)以目前的数学发展水平是没办法求的,因此我们要求这个偏导,可以拆解为EtUij的偏导数:

EtUij=k=0ttr[(Etsk)TskUij]=k=0ttr[(δk)TskUij]

其中,δk=Etsk,遵循

skhksk+1...Et

的传递关系,应用链式法则有:

δk=hksksk+1hkEtsk+1=diag(1hkhk)UTδk+1=(UTδk+1)(1hkhk)

其中,表示向量点乘。于是,我们得到了关于δ 的递推关系式。由δt出发,我们可以往前推出每一个δ,现在计算δt
\begin{equation}\delta_t=\frac{\partial E_t}{\partial s_t}=\frac{\partial h_t}{\partial s_t}\frac{\partial z_t}{\partial h_t}\frac{\partial E_t}{\partial z_t}=diag(1-h_t\odot h_t)\cdot VT\cdot(\hat{y}_t-y_t)=(VT(\hat{y}t-y_t))\odot (1-h_t\odot h_t)\end{equation}
δ0,...,δt代入$ \frac{\partial E_t}{\partial U
{ij}} $有:

EtUij=k=0tδk(i)hk1(j)

将上式写成矩阵形式:

EtU=k=0tδkhk1

不失严谨性,定义h1为全0的向量。

3.计算EtW
按照上述思路,我们可以得到

EtW=k=0tδkxk

由于xk是个one-hot vector,假设其第m个位置为1,那么我们在更新W时只需要更新W的第m列即可,计算EtW的伪代码如下:

delta_t = V.T.dot(residual[T]) * (1-h[T]**2)
for t from T to 0
    dEdW[ :,x[t] ] += delta_t
    #delta_t = W.T.dot(delta_t) * (1 - h[t-1]**2)
    delta_t = U.T.dot(delta_t) * (1 - h[t-1]**2)

posted on   Hiroki  阅读(28306)  评论(6编辑  收藏  举报

编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

点击右上角即可分享
微信分享提示