梯度下降(Gradient Descent)
1. 特征:沿负梯度方向迭代更新下一次的搜索方向
2. 用于:优化问题中逼近极值点
3. 基本形式:$\theta'_j=\theta_j-\alpha\cdot\frac{\partial{J(\theta)}}{\partial\theta_j}$
4. 步长 $\alpha$(学习速率): $\alpha$太小,收敛慢;$\alpha$太大,可能不收敛。
5. 缺点:
①靠近极值点收敛速度减慢(导数减小)
②可能之字形下降
③总体收敛速度慢(一阶线性)
6. 变种:
①BGD批量梯度下降(Batch Gradient Descent):原始形式,每次用所有样本求导更新。
②SGD随机梯度下降(Stachastic Gradient Descent):每次随机选一个样本来更新,计算量小,收敛快,但准确率下降,并且不易于并行实现。
③MBGD小批量梯度下降(Mini-Batch Gradient Descent):折中方案,每次随机选b个样本进行更新。
7. 加速:Feature Scaling:将feature各维度标准化,即Mean Normalization:$x=\frac{x-\bar{x}}{max-min}$