摘要: 预训练加微调 梯度剪切、权重正则(针对梯度爆炸) 使用不同的激活函数 使用batchnorm 使用残差结构 使用LSTM网络 一、为什么会产生梯度消失和梯度爆炸? 目前优化神经网络的方法都是基于BP,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。其中将误差从末层往前传递 阅读全文
posted @ 2021-05-06 17:41 Marklong 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 一、为什么会产生梯度消失和梯度爆炸? 目前优化神经网络的方法都是基于BP,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。其中将误差从末层往前传递的过程需要链式法则(Chain Rule)的帮助,因此反向传播算法可以说是梯度下降在链式法则中的应用。 而链式法则是一个连乘的 阅读全文
posted @ 2021-05-06 17:40 Marklong 阅读(62) 评论(0) 推荐(0) 编辑
摘要: 1.定义 标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h'小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 —-《Machine Learning》Tom M.Mitchell 2.出现过拟合的一些原因 (1)建 阅读全文
posted @ 2021-05-06 17:35 Marklong 阅读(404) 评论(0) 推荐(0) 编辑