深度神经网络(DNN)反向传播算法(BP)
在深度神经网络(DNN)模型与前向传播算法中,我们对DNN的模型和前向传播算法做了总结,这里我们更进一步,对DNN的反向传播算法(Back Propagation,BP)做一个总结。
1. DNN反向传播算法要解决的问题
在了解DNN的反向传播算法前,我们先要知道DNN反向传播算法要解决的问题,也就是说,什么时候我们需要这个反向传播算法?
回到我们监督学习的一般问题,假设我们有m个训练样本:,其中为输入向量,特征维度为,而为输出向量,特征维度为。我们需要利用这m个样本训练出一个模型,当有一个新的测试样本来到时, 我们可以预测向量的输出。
如果我们采用DNN的模型,即我们使输入层有个神经元,而输出层有个神经元。再加上一些含有若干神经元的隐藏层。此时我们需要找到合适的所有隐藏层和输出层对应的线性系数矩阵,偏倚向量,让所有的训练样本输入计算出的输出尽可能的等于或很接近样本输出。怎么找到合适的参数呢?
如果大家对传统的机器学习的算法优化过程熟悉的话,这里就很容易联想到我们可以用一个合适的损失函数来度量训练样本的输出损失,接着对这个损失函数进行优化求最小化的极值,对应的一系列线性系数矩阵,偏倚向量即为我们的最终结果。在DNN中,损失函数优化极值求解的过程最常见的一般是通过梯度下降法来一步步迭代完成的,当然也可以是其他的迭代方法比如牛顿法与拟牛顿法。如果大家对梯度下降法不熟悉,建议先阅读我之前写的梯度下降(Gradient Descent)小结。
对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为我们的反向传播算法。
本篇使用了矩阵向量求导,如果你对这一块不熟悉,请先阅读下我写的矩阵向量求导系列文章。
2. DNN反向传播算法的基本思路
在进行DNN反向传播算法前,我们需要选择一个损失函数,来度量训练样本计算出的输出和真实的训练样本输出之间的损失。你也许会问:训练样本计算出的输出是怎么得来的?这 个输出是随机选择一系列,用我们上一节的前向传播算法计算出来的。即通过一系列的计算:。计算到输出层第层对应的即为前向传播算法计算出来的输出。
回到损失函数,DNN可选择的损失函数有不少,为了专注算法,这里我们使用最常见的均方差来度量损失。即对于每个样本,我们期望最小化下式:
其中,和为特征维度为的向量,而为S的L2范数。
损失函数有了,现在我们开始用梯度下降法迭代求解每一层的。
首先是输出层第层。注意到输出层的满足下式:
这样对于输出层的参数,我们的损失函数变为:
这样求解的梯度就简单了:
注意上式中有一个符号,它代表Hadamard积,对于两个维度相同的向量和,则。
我们注意到在求解输出层的的时候,有中间依赖部分,因此我们可以把公共的部分即对先算出来,记为:
现在我们终于把输出层的梯度算出来了,那么如何计算上一层层的梯度,上上层层的梯度呢?这里我们需要一步步的递推,注意到对于第层的未激活输出,它的梯度可以表示为:
如果我们可以依次计算出第层的,则该层的很容易计算?为什么呢?注意到根据前向传播算法,我们有:
所以根据上式我们可以很方便的计算出第l层的的梯度如下:
其中,第一个式子的推导可以参考机器学习中的矩阵向量求导(四) 矩阵向量求导链式法则中第三节的最后一个公式。
那么现在问题的关键就是要求出了。这里我们用数学归纳法,第层的上面我们已经求出, 假设第层的已经求出来了,那么我们如何求出第层的呢?我们注意到:
可见,用归纳法递推和的关键在于求解。
而和的关系其实很容易找出:
这样很容易求出:
将上式带入上面和关系式我们得到:
现在我们得到了的递推关系式,只要求出了某一层的,求解的对应梯度就很简单的。
3. DNN反向传播算法过程
现在我们总结下DNN反向传播算法的过程。由于梯度下降法有批量(Batch),小批量(mini-Batch),随机三个变种,为了简化描述,这里我们以最基本的批量梯度下降法为例来描述反向传播算法。实际上在业界使用最多的是mini-Batch的梯度下降法。不过区别仅仅在于迭代时训练样本的选择而已。
输入: 总层数L,以及各隐藏层与输出层的神经元个数,激活函数,损失函数,迭代步长,最大迭代次数MAX与停止迭代阈值,输入的m个训练样本
输出:各隐藏层与输出层的线性关系系数矩阵和偏倚向量
1) 初始化各隐藏层与输出层的线性关系系数矩阵和偏倚向量的值为一个随机值。
2)for iter to 1 to MAX:
2-1) for i =1 to m:
a) 将DNN输入设置为
b) for =2 to L,进行前向传播算法计算
c) 通过损失函数计算输出层的
d) for = L-1 to 2, 进行反向传播算法计算
2-2) for = 2 to L,更新第层的:
2-3) 如果所有的变化值都小于停止迭代阈值,则跳出迭代循环到步骤3。
3) 输出各隐藏层与输出层的线性关系系数矩阵和偏倚向量。
4. DNN反向传播算法小结
有了DNN反向传播算法,我们就可以很方便的用DNN的模型去解决第一节里面提到了各种监督学习的分类回归问题。当然DNN的参数众多,矩阵运算量也很大,直接使用会有各种各样的问题。有哪些问题以及如何尝试解决这些问题并优化DNN模型与算法,我们在下一篇讲。
(欢迎转载,转载请注明出处。欢迎沟通交流: liujianping-ok@163.com)
参考资料:
1) Neural Networks and Deep Learning by By Michael Nielsen
2) Deep Learning, book by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)