选修-3-Gradient Descent

1. Review：梯度下降法

我们建立一个模型,需要为这个模型找到一组参数,这个参数可以最小化\(Loss\).我们使用梯度下降法来找到这个参数.注意,下图的\(▽L\)就是梯度.

梯度下降以可视化表现如下:

2. 梯度下降的tips

2.1 小心调整lr

学习率控制梯度下降速度.

2.1.1 自适应学习率

学习率的调整是很麻烦的,但也有一些\(ideas\),在初始的时候,离局部最小点比较远,此时的学习率会比较大,但随着\(epochs\)进行,学习率会逐渐减小.比如设置成\(\eta^t = \frac{\eta}{\sqrt{t+1}}\).但这只是一种情况,最好的情况是每个不同的参数都给予不同的学习率.

2.1.2 Adagrad

这个算法让每个参数的学习率都把它除上之前微分的均方根.

对于普通的梯度下降,我们要控制它的学习率,可能会这样做:
但Adagrad可以做得更好:

那么之前微分的均方根到底是什么意思呢?举个例子就明白了.请注意\(\eta\)的式子就是上面的式子,同理\(g\).

总结一下,就是下面这个式子:

这只是Adagrad算法的其中之一的方法,还有很多属于Adagrad的算法,比如大名鼎鼎的\(Adam\)算法.

2.1.3 Adagrad存在的矛盾

在\(Adagrad\)中,当梯度越大时，步伐应该越大，但是分母又导致当梯度越大的时候,步伐越小.

有\(paper\)给了直观解释,我个人有点理解不了为什么给予这种反差,这是一位\(po\)主的笔记.
\(update\):把\(\frac{\eta}{\sqrt{\sum_{i=0}^{t}(g^i)^2}}\)看作学习率的话,如果前四格\(grad\)一直很小,\(lr\)就会适当增大.如果\(grad\)一直很大,那么\(lr\)就会适当减小.这是弹幕的解释.

李宏毅老师也给了自己的解释.下面是其他博主对李老师观点的总结,最好的步伐与该点的梯度成正比,当梯度越大,说明这个点与最低点也越远:

考虑多个参数的时候,情况又是不同的.从下图是两个参数与Loss之间的关系图.

如果我们只考虑\(w_1\),也就是只看蓝色那条线,那么\(a\)的梯度大于\(b\)的梯度,\(a\)离最低点越远.同理绿色那条线.但如果我们对比\(a\)对\(w_1\)的微分,\(c\)对\(w_2\)的微分,这个结论又不成立了.但如果我要考虑多个参数,到底应该怎么想呢?

前面我们得到的最佳距离\(\frac{2ax_0+b}{2a}\),还有个分母\(2a\),对\(function\)进行二次微分刚好可以得到:

所以最好的\(step\)应该将二次微分考虑进来.我们继续看上上图的蓝线,可以发现蓝线的二次微分比较小,而绿线的二次微分比较大.因此比较一次微分是不够的,需要一起考虑.

2.1.4 Adagrad进一步解释

前面篇幅介绍的与矛盾有什么关系呢?我们用上面函数计算出\(best\) \(step\)是一次微分和二次微分的分式.实际下面的分母就是在不增加计算成本的情况下,尽可能去估测二次微分的值.为什么这样可以预估呢?下图的折线是一次微分的变化图像,\(\sqrt{\sum_{i=0}^{t}(g^i)^2}\)实际类似于在一维微分图像上取样点,绿线取到一次微分值大的点比较多,因此\(\sqrt{\sum_{i=0}^{t}(g^i)^2}\)的值求平均就会比蓝线大,从而反映二次微分的大小(不是近似).

从这里到上面讲的都是为什么要这样构造\(\frac{\eta}{\sqrt{\sum_{i=0}^{t}(g^i)^2}}g^i\),个人感觉get不到和前面矛盾的关系

2.2 Stochastic Gradicent Descent

我们在之前的计算梯度下降中,\(Loss\)的计算是基于所有样本,然后再算梯度.而随机梯度下降先只拿一个样本出来,然后计算它的\(Loss\),再根据这个样本\(Loss\)计算梯度.也就是说一般的梯度下降,我们求梯度的时候,它的\(Loss\)是所有样本的\(loss\)式子和,再针对式子和求导.而随机梯度下降,只看一个样本的\(Loss\)就求导.

下图是两种方法的对比.常规的梯度下降算法走一步要处理二十个\(example\),但随机算法此时已经走了二十步(每处理一个\(example\)就更新)

2.3 Feature Scaling

当模型的特征分布很不一样时,我们就会考虑做\(Scaling\).

那么为什么要这样呢?举个例子,见下图:

如果我们的\(x_2\)都比较大的话,那么\(w_2\)变化就会对\(Loss\)影响很大.它们与\(Loss\)的变化见上图蓝色部分.\(w_1\)变化影响比较小,所以当\(w_2\)不变时,它的微分曲线比较平滑..但\(x_1\)和\(x_2\)差不多的话,它们与\(Loss\)的变化见上图绿色部分.
那么,这个对\(Gradicent\) \(Descent\)有什么影响呢?当参数与\(Loss\)的图像是椭圆形时,对于不同的参数,可能就需要不同的学习率,才能移动到局部最低点.

2.3.1 怎么做Feature Scaling

方法有很多,比较常见的方法就是利用平均值和标准差对绿色框的数值做归一化:

这实际是将每一个参数都归一化为标准正态分布.

3. Gradient Descent的理论基础

我们在参数与\(Loss\)的图像上,瞬间找到最低点是不大可能的.但是如果先给予我们一个点,再限定一个范围,找该范围的最低点会更加容易.

那么怎么在限定范围内找到最低点呢?首先来看一个理论,如果\(h(x)\)在\(x=x_0\)处无限次可微,那么\(h(x_0)\)可以用泰勒展开为:

但是,当\(x\)很接近\(x_0\),\(x-x_0\)会远大于\((x-x_0)^2\)、\((x-x_0)^3\),所以后面的可以省略掉.
上面是单参数泰勒展开,当然也存在多参数的情况.

我们将泰勒展开应用在Gradicent Descent上.红线的足够小类似于上面的当\(x\)很接近\(x_0\)的情况.这样\(L(\theta)\)就可以简化为简单的式子.

问题就变成了,\(\theta_1\)和\(\theta_2\)在圆心为\((a,b)\)内移动.然后求\(\theta_1\)和\(\theta_2\)的取值,让\(L(\theta)\)最小.

这样的问题可以转为向量的\(inner\) \(product\).\(L(\theta)\)是\((u,v)\)和\(\theta\)的内积.参考内积公式,可以得出当\(\theta\)和\((u,v)\)完全反方向时,得到的值最小.

请注意一下,仅仅反方向不是最小,最小还是需要用一个\(scale\)将向量的长度调整到弧线处.

这样我们就求到了\(\theta_1\)和\(\theta_2\)最合适的值.再将原来的\(u,v\)代回去.我们可以发现带回去的这个式子,就是Gradient Descent.但是成立的前提是\(L(\theta)\)的展开要成立.同时,\(\eta\)的大小需要让长度不能超过红圈,这代表学习率也不能太大.

也可以对泰勒展开到二次式、三次式等等,但是这种计算对\(deep\) \(learning\)来说成本太大.