机器学习的优化目标
一,梯度下降法
batch梯度下降法:
随机梯度下降SGD
线性衰减然后保持为常数
梯度爆炸和悬崖
解决方法:梯度阶段
启发式梯度截断干涉以减少步长
二,动量法
在参数更新时考虑历史梯度信息
Nesterov动量法