【转】梯度下降算法原理
Logistic回归的理论内容上篇文章已经讲述过,在求解参数时可以用牛顿迭代,可以发现这种方法貌似
太复杂,今天我们介绍另一种方法,叫梯度下降。当然求最小值就是梯度下降,而求最大值相对就是梯度上升。
由于,如果,那么得到
现在我们要找一组,使得所有的最接近,设
现在我们要找一组,使得最小。这就是今天要介绍的梯度下降。
梯度下降的原理是这样的:首先对于向量赋初值,可以赋随机值,也可以全赋为0,然后改变的值,使得
按梯度下降最快的方向进行,一直迭代下去最终会得到局部最小值。即
表示梯度最陡的那个方向,表示步长,也就是说每次向下降最快的方向走多远。进一步有
所以
简化一下就是
今天的我,是跟昨天不一样的我,是比昨天更好的我~