梯度下降算法

梯度下降算法

梯度下降原理

在线性回归算法求解中提到，sitar不一定可以求解。现在来尝试另外一种解法：梯度下降！

核心在于如何优化。

通常需要优化迭代 1万次，10万次。

优化时要在不同方向进行。这就需要在各自方向求偏导，各自更新。

一句话：沿着目标函数下降的方向去走。

梯度下降方法对比

批量梯度下降精度高，速度慢。

随机梯度下降迭代速度快，但会受不纯净数据的干扰（噪音点，离群点，异常点）。

小批量梯度下降，最实用。

学习率对结果的影响

梯度下降：

1.方向

2.更新

大的学习率会使迭代过程不平稳。越过最低点，达到局部极小值点。

一般用小的学习率，大的迭代次数，进行迭代。

实际开发中，小的学习率如果不能使结果收敛，那么就再次减小学习率。

一开始采用较大的学习率（一般用0.01），逐渐减下学习率（如0.001）。

批量一般选64作为minbatch。通常batch越大，最终结果稳定性越高。

posted @ 2018-02-15 20:14 王庆帅阅读(217) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部