BPTT算法推导
随时间反向传播 (BackPropagation Through Time,BPTT)
符号注解:
- K:词汇表的大小
- T:句子的长度
- H:隐藏层单元数
- Et:第t个时刻(第t个word)的损失函数,定义为交叉熵误差Et=−yTtlog(ˆyt)
- E:一个句子的损失函数,由各个时刻(即每个word)的损失函数组成,E=T∑tEt。
注: 由于我们要推倒的是SGD算法, 更新梯度是相对于一个训练样例而言的, 因此我们一次只考虑一个句子的误差,而不是整个训练集的误差(对应BGD算法) - xt∈RK×1:第t个时刻RNN的输入,为one-hot vector,1表示一个单词的出现,0表示不出现
- st∈RH×1:第t个时刻RNN隐藏层的输入
- ht∈RH×1:第t个时刻RNN隐藏层的输出
- zt∈RK×1:输出层的汇集输入
- ˆyt∈RK×1:输出层的输出,激活函数为softmax
- yt∈RK×1:第t个时刻的监督信息,为一个one-hot vector
- rt=ˆyt−yt:残差向量
- W∈RH×K:从输入层到隐藏层的权值
- U∈RH×H:隐藏层上一个时刻到当前时刻的权值
- V∈RK×H:隐藏层到输出层的权值
他们之间的关系:
其中,σ(⋅)是sigmoid函数。由于xt是one-hot向量,假设第j个词出现,则Wxt相当于把W的第j列选出来,因此这一步是不用进行任何矩阵运算的,直接做下标操作即可,在matlab里就是W(:,xt)。
BPTT与BP类似,是在时间上反传的梯度下降算法。RNN中,我们的目的是求得∂E∂U,∂E∂W,∂E∂V,根据这三个变化率来优化三个参数U,V,W
注意到∂E∂U=∑t∂Et∂U,因此我们只要对每个时刻的损失函数求偏导数再加起来即可。
1.计算∂Et∂V
注:推导中用到了之前推导用到的结论。其中r(i)t=(ˆyt−yt)(i)表示残差向量第i个分量,h(j)t表示ht的第j个分量。
上述结果可以改写为:
其中⊗表示向量外积。
2.计算∂Et∂U
由于U是各个时刻共享的,所以t之前每个时刻U的变化都对Et有贡献,反过来求偏导时,也要考虑之前每个时刻U对E的影响。我们以sk为中间变量,应用链式法则:
但由于∂sk∂U(分子向量,分母矩阵)以目前的数学发展水平是没办法求的,因此我们要求这个偏导,可以拆解为Et对Uij的偏导数:
其中,δk=∂Et∂sk,遵循
的传递关系,应用链式法则有:
其中,⊙表示向量点乘。于是,我们得到了关于δ 的递推关系式。由δt出发,我们可以往前推出每一个δ,现在计算δt:
\begin{equation}\delta_t=\frac{\partial E_t}{\partial s_t}=\frac{\partial h_t}{\partial s_t}\frac{\partial z_t}{\partial h_t}\frac{\partial E_t}{\partial z_t}=diag(1-h_t\odot h_t)\cdot VT\cdot(\hat{y}_t-y_t)=(VT(\hat{y}t-y_t))\odot (1-h_t\odot h_t)\end{equation}
将δ0,...,δt代入$ \frac{\partial E_t}{\partial U{ij}} $有:
将上式写成矩阵形式:
不失严谨性,定义h−1为全0的向量。
3.计算∂Et∂W
按照上述思路,我们可以得到
由于xk是个one-hot vector,假设其第m个位置为1,那么我们在更新W时只需要更新W的第m列即可,计算∂Et∂W的伪代码如下:
delta_t = V.T.dot(residual[T]) * (1-h[T]**2)
for t from T to 0
dEdW[ :,x[t] ] += delta_t
#delta_t = W.T.dot(delta_t) * (1 - h[t-1]**2)
delta_t = U.T.dot(delta_t) * (1 - h[t-1]**2)
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考
· .NET Core内存结构体系(Windows环境)底层原理浅谈
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 本地部署DeepSeek后,没有好看的交互界面怎么行!
· DeepSeek 解答了困扰我五年的技术问题。时代确实变了!
· 趁着过年的时候手搓了一个低代码框架
· 推荐一个DeepSeek 大模型的免费 API 项目!兼容OpenAI接口!