批量梯度下降and随机梯度下降
在学习线性回归,在基于均方误差最小化进行模型求解时,需要利用梯度下降的方式逐步逼近最优解。
线性回归的假设函数(一个特征的情况下):,为第i个样本值。
其中i代表样本数。
均方误差的代价函数(优化的目标函数):,m个样本值。
目的:确定参数使代价函数最小。
1、批量梯度下降(Batch Gradient Descent,BGD)
(1)初始化参数(需要求解的值) ..
(2)对代价函数(总体样本)求偏导(针对于每个)
(3)更新参数..
,为学习率,影响收敛速度和结果,若学习率过大,则可能无法收敛,若学习率过小,则收敛速度慢。
(4)迭代2、3步骤,直到收敛。
总结:每次更新参数,都需要针对总体样本的均方误差求偏导,好处是更准确地朝向极值所在的方向。当目标函数为凸函数时,当学习率恰当时,BGD一定能够得到全局最优。缺点是样本数较大时,每迭代一步都需要对所有样本计算,训练过程会很慢。
2、随机梯度下降(Stochastic Gradient Descent,SGD)
(1)初始化参数(需要求解的值) ..
(2)对代价函数(随机的单个样本)求偏导(针对于每个)
目标函数:
求偏导:
(3)更新参数..
(4)迭代2、3步骤,直到收敛。
总结:优点是更新参数不需要总体样本的均方误差,而是随机优化单个样本上的损失函数,使收敛速度加快。缺点是随机梯度下降可能无法收敛,容易收敛到局部最优。
3、数学求解回归目标函数
一元线性回归假设函数:
斜率
截距
多元线性回归
样本由d个属性描述,此时试图学习:,
令样本空间,需优化的参数向量
目标函数:
参数解:
本文参考地址
2020-05-18 21:15