梯度下降(Gradient Descent)

1. 特征:沿负梯度方向迭代更新下一次的搜索方向

 

2. 用于:优化问题中逼近极值点

 

3. 基本形式:$\theta'_j=\theta_j-\alpha\cdot\frac{\partial{J(\theta)}}{\partial\theta_j}$

 

4. 步长 $\alpha$(学习速率): $\alpha$太小,收敛慢;$\alpha$太大,可能不收敛。

 

5. 缺点:

①靠近极值点收敛速度减慢(导数减小)

②可能之字形下降

③总体收敛速度慢(一阶线性)

 

6. 变种:

①BGD批量梯度下降(Batch Gradient Descent):原始形式,每次用所有样本求导更新。

②SGD随机梯度下降(Stachastic Gradient Descent):每次随机选一个样本来更新,计算量小,收敛快,但准确率下降,并且不易于并行实现。

③MBGD小批量梯度下降(Mini-Batch Gradient Descent):折中方案,每次随机选b个样本进行更新。

 

7. 加速:Feature Scaling:将feature各维度标准化,即Mean Normalization:$x=\frac{x-\bar{x}}{max-min}$

posted @ 2017-03-22 14:43  Clarence的笔记  阅读(324)  评论(0编辑  收藏  举报