优化器-SGD、SGD with momentum、Adagrad、RMSProp、Adam

一、SGD（梯度下降）

　　在多变函数中，梯度是一个方向，梯度的方向指出了函数在给定点上升最快的方向，或者说指引了函数值增大的方向，因此我们只要考虑往梯度的反方向走，就至少能走到极小值，可能能走到全局最小值。

二、SGD with momentum（动量法：梯度累加）

　　动量累加：震荡方向的梯度相互抵消，梯度小的方向逐渐累加。

三、Adagrad（自适应：调整学习率）

　　调整步长：震荡方向的步长很小，梯度小的方向步长变大。

四、RMSProp（历史累计在衰减）

　　Adagrad梯度小的方向，步长一开始比较大，但逐渐减小（梯度一直在累加，步长一直在减小），此时就失去了调节作用。

五、Adam（融合了动量和自适应，避免了冷启动）

　　冷启动：一开始更新是很小的改动，对其进行修正，使其幅度变大。

posted @ 2022-03-21 20:32 NLP的小Y 阅读(633) 评论(0) 编辑收藏举报

刷新页面返回顶部