2021 年 5月 6 日随笔档案 - Marklong

2021年5月6日

摘要：预训练加微调梯度剪切、权重正则（针对梯度爆炸）使用不同的激活函数使用batchnorm 使用残差结构使用LSTM网络一、为什么会产生梯度消失和梯度爆炸？目前优化神经网络的方法都是基于BP，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。其中将误差从末层往前传递阅读全文

posted @ 2021-05-06 17:41 Marklong 阅读(239) 评论(0) 推荐(0) 编辑

梯度消失与梯度爆炸

摘要：一、为什么会产生梯度消失和梯度爆炸？目前优化神经网络的方法都是基于BP，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。其中将误差从末层往前传递的过程需要链式法则（Chain Rule）的帮助，因此反向传播算法可以说是梯度下降在链式法则中的应用。而链式法则是一个连乘的阅读全文

posted @ 2021-05-06 17:40 Marklong 阅读(62) 评论(0) 推荐(0) 编辑

过拟合及解决方案

摘要： 1.定义标准定义：给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h'小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。 —-《Machine Learning》Tom M.Mitchell 2.出现过拟合的一些原因（1）建阅读全文

posted @ 2021-05-06 17:35 Marklong 阅读(404) 评论(0) 推荐(0) 编辑

Marklong

公告