优化器-SGD、SGD with momentum、Adagrad、RMSProp、Adam

一、SGD(梯度下降)

  在多变函数中,梯度是一个方向,梯度的方向指出了函数在给定点上升最快的方向,或者说指引了函数值增大的方向,因此我们只要考虑往梯度的反方向走,就至少能走到极小值,可能能走到全局最小值。

   

二、SGD with momentum(动量法:梯度累加)

  动量累加:震荡方向的梯度相互抵消,梯度小的方向逐渐累加。

  

三、Adagrad(自适应:调整学习率)

  调整步长:震荡方向的步长很小,梯度小的方向步长变大。

  

四、RMSProp(历史累计在衰减)

  Adagrad梯度小的方向,步长一开始比较大,但逐渐减小(梯度一直在累加,步长一直在减小),此时就失去了调节作用。

  

五、Adam(融合了动量和自适应,避免了冷启动)

  冷启动:一开始更新是很小的改动,对其进行修正,使其幅度变大。

  

 

posted @ 2022-03-21 20:32  NLP的小Y  阅读(633)  评论(0编辑  收藏  举报
/*粒子线条,鼠标移动会以鼠标为中心吸附的特效*/