【机器学习与深度学习理论要点】22. 梯度，梯度下降，梯度消失问题，梯度爆炸问题，批量梯度下降、随机梯度下降的特点？

梯度是一个向量，表示某一函数在该点处的方向导数沿该方向取得最大值，即函数在该点处沿着该方向变化最快，变化率最大。

梯度下降是一个最优化的算法，用来递归性地逼近最小偏差模型，核心思想是按照梯度相反的方向，不停地调整函数权值，步骤为：

1）求损失函数值

2）损失是否最够小，如果不是，计算损失函数的梯度

3）按梯度的反方向走一小步（调整权重， $w_i = w_i + \delta w_i$ )

在机器学习中，如果模型的优化依赖于梯度下降，梯度消失会导致模型无法进一步进行优化。

1）更换激活函数：如更平滑为relu，leakrelu

2）批量规范化处理：通过规范化操作将输出信号x规范化到均值为0，方差为1保证网络的稳定性

3）使用残差结构：通过引入残差结构，能有效避免梯度消失问题

1）梯度爆炸：梯度消失是在计算中出现了梯度过小的值，梯度爆炸则相反，梯度计算出现了过大的值。梯度过大，可能使参数更新幅度过大，超出了合理范围。

2）解决梯度爆炸的方法

1）批量梯度下降

①定义：批量梯度下降是指在每一次迭代时使用所有样本来进行梯度的更新

②特点

2）随机梯度下降

①定义：随机梯度下降每次迭代使用一个样本来对参数进行更新，使得训练速度加快

②特点

3）小批量梯度下降

①定义：每次迭代使用指定个（batch_size)样本来对参数进行更新

②特点

posted @ 2023-01-24 21:08 野哥李阅读(21) 评论(0) 编辑收藏举报来源

刷新页面返回顶部