批量梯度下降and随机梯度下降

在学习线性回归,在基于均方误差最小化进行模型求解时,需要利用梯度下降的方式逐步逼近最优解。

线性回归的假设函数(一个特征的情况下):为第i个样本值。

其中i代表样本数。

均方误差的代价函数(优化的目标函数):,m个样本值。

目的:确定参数使代价函数最小

 

1、批量梯度下降(Batch Gradient Descent,BGD)

(1)初始化参数(需要求解的值) ..

(2)对代价函数(总体样本)求偏导(针对于每个

 

 

(3)更新参数..

为学习率,影响收敛速度和结果,若学习率过大,则可能无法收敛,若学习率过小,则收敛速度慢。

(4)迭代2、3步骤,直到收敛。

总结:每次更新参数,都需要针对总体样本的均方误差求偏导,好处是更准确地朝向极值所在的方向。当目标函数为凸函数时,当学习率恰当时,BGD一定能够得到全局最优。缺点是样本数较大时,每迭代一步都需要对所有样本计算,训练过程会很慢

 

2、随机梯度下降(Stochastic Gradient Descent,SGD)

(1)初始化参数(需要求解的值) ..

(2)对代价函数(随机的单个样本)求偏导(针对于每个

目标函数:

求偏导:

(3)更新参数..

(4)迭代2、3步骤,直到收敛。

总结:优点是更新参数不需要总体样本的均方误差,而是随机优化单个样本上的损失函数,使收敛速度加快。缺点是随机梯度下降可能无法收敛,容易收敛到局部最优

 

3、数学求解回归目标函数

一元线性回归假设函数:

斜率

截距

 

多元线性回归

样本由d个属性描述,此时试图学习:

令样本空间,需优化的参数向量

目标函数:

参数解 

 

 

本文参考地址

 

2020-05-18 21:15

posted @ 2020-05-18 21:17  傅余生  阅读(273)  评论(0编辑  收藏  举报