梯度下降法家族、牛顿法家族、拟牛顿家族

　　　　　　梯度的方向　　　　　　

梯度：如果函数是一维的变量，则梯度就是导数的方向；如果是大于一维的，梯度就是在这个点的法向量，并指向数值更高的等值线。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂y)^T,简称grad f(x,y)或者▽f(x,y)

梯度上升：如果我们需要求解损失函数的最大值，用梯度上升法来迭代求解。

梯度下降：在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值。梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解，但当目标函数是凸函数时，梯度下降法的解是全局解。$\theta_i = \theta_i - \alpha\frac{\partial}{\partial\theta_i}J(\theta_0, \theta_1..., \theta_n)$

假设函数（hypothesis function）：例如线性回归的拟合函数为$h_{\theta}(x) = \theta_0+\theta_1x$
损失函数：$J(\theta_0, \theta_1..., \theta_n) = \frac{1}{2m}\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y_j)^2$
算法调优：

步长（learning rate）：步长决定了在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度
参数的初始值选择：由于有局部最优解的风险，需要多次用不同初始值运行算法，关键损失函数的最小值，选择损失函数最小化的初值。
连续特征归一化

梯度下降法公式的推导：

一阶泰勒：$f(x+\Delta x)=f(x)+f'(x)*\Delta x$

目的是使得左边的值最小，那应该使得$f'(x)\Delta x$为负数，

令$\Delta x = -f'(x)$，这样上式就变为$f(x+\Delta x)=f(x)-f'(x)*f'(x)$

但是上式只在局部成立，加上修正因子，就变为$\Delta x=-\lambda*f'(x)$，

最终得到：$x_{n+1}=x_n-\lambda*f'(x_n)$

最速下降法过程：

输入：目标函数$f(x)$，梯度函数$g(x)=\Delta f(x)$，计算精度$\epsilon$

输出：$f(x)$的极小点$x^*$

step 1：取初始值$x^{(0)}$属于$R^n$，置$k=0$
step 2：计算$f(x^{(k)})$
step 3：计算梯度$g_k=g(x^{(k)})$，当$||g_k||<\epsilon$时，停止迭代，令$x^*=x^{(k)}$；否则，令$p_k=-g(x^{(k)})$，求$\lambda_k$，使$f(x^{(k)}+\lambda_kp_k)=min f(x^{(k)}+{\lambda}p_k)$，$\lambda\geq0$
step 4：置$x^{(k+1)}=x^{(k)}+\lambda_k p_k$，计算$f(x^{(k+1)})$，当$||f(x^{(k+1)})-f(x^{(k)})||<\epsilon$或$||x^{(k+1)}-x^{(k)}||<\epsilon$，停止迭代，令$x^*=x^{(k+1)}$
step 5：否则，置$k=k+1$，转step 3

梯度下降梯度下降方向俯视图

沿着梯度的方向为什么是函数值增加最快的方向？

　　　　　　　　　　梯度下降一阶优化

一、梯度下降家族

1.1 批量梯度下降法（Batch Gradient Descent，BGD）

$\theta_i = \theta_i - \alpha\sum\limits_{j=0}^{m}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y_j)x_i^{(j)}$　　

m个样本都用来更新参数

时间复杂度：O(mnT)

1.2 随机梯度下降法（Stochastic Gradient Descent，SGD）

$\theta_i = \theta_i - \alpha (h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y_j)x_i^{(j)}$

SGD每次更新参数时，仅使用一个样本j。

时间复杂度：O(nT)

1.3 小批量梯度下降法（Mini-batch Gradient Descent，MBGD）

$\theta_i = \theta_i - \alpha \sum\limits_{j=t}^{t+x-1}(h_\theta(x_0^{(j)}, x_1^{(j)}, ...x_n^{(j)}) - y_j)x_i^{(j)}$

BGD和SGD的折中，对于m个样本，采用x个子样本来更新参数，1<x<m

时间复杂度：O(xnT)

特点：

速度快
收敛慢
容易跳出鞍点：因为每次迭代使用一个样本，使用的梯度不是很准确，就降低了陷入局部极小与鞍点的几率。

二、牛顿家族

2.1 牛顿法

（1）用牛顿法求$f(x)=0$的根

　　　　　　　　　　牛顿法二阶优化

先随机选个初始点$x_0$，然后开始迭代，

$$x_{n+1}=x_n-\frac{f(x_n)}{f'(x_{n})}$$

当$|x_{n+1}-x_n|<\epsilon$，迭代结束，$x_{n+1}$就是$f(x)=0$的近似值解。此处牛顿法是一阶算法。

举例：用牛顿法近似求解根号2

# 牛顿法求零点
# f = x ** 2 - 2
# x_n+1 = x_n - f(x_n)/f'(x_n)
# 收敛条件:f(x)接近于0
def func(x):
    return x ** 2 - 2
def f_func(x):
    return 2 * x
x = 1.5
err = f_func(x)
while abs(func(x)) > 0.000001:
    x = x - func(x) / f_func(x)
print(x)

（2）用牛顿法用作优化算法时候，它是二阶的

假设有一个凸优化问题$\min_{x} f(x)$，问题是找一个$x$来最小化$f(x)$

牛顿法公式的推导：

二阶泰勒：$f(x+\Delta x)=f(x)+f'(x)\Delta x +1/2*f''(x)*{\Delta x}^2$

希望左式最小，将左式看作$\Delta x$的函数，当取合适的$\Delta x$值时，左边式子达到极小值，此时导数为0，得到$0=f'(x) +f''(x)*\Delta x$

利用牛顿法求解，选取初始点$x_0$，然后进行如下迭代：

$$x_{n+1}=x_n-\frac{f'(x_n)}{f''(x_n)}$$

直到$|x_{n+1}-x_n|<\epsilon$

牛顿法过程：

输入：目标函数$f(x)$，梯度$g(x)=\Delta f(x)$，海瑟矩阵$H(x)$，精度要求$\epsilon$

输出：$f(x)$的极小点

step 1：取初始点$x^{(0)}$，置$k=0$
step 2：计算$g_k=g(x^{(k)})$
step 3：若$||g_k||\leq\epsilon$，则停止计算，得近似解$x^*=x^{(k)}$
step 4：计算$H_k=H(x^{(k)})$，并求$p_k$，$H_kp_k=-g_k$（$p_k=-H_k^{-1}g_k$计算海瑟矩阵比较复杂）
step 5：置$x^{(k+1)}=x^{(k)}+p_k$
step 6：置$k=k+1$，转step 2

优点：

二阶收敛，收敛速度快；
如果$G^*$正定，且初始点合适，算法二阶收敛、对正定二次函数，迭代一次就可以得到极小点

缺点：

牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂。
牛顿法需要Hessian矩阵正定，如果非正定，会陷入鞍点
当初始点远离极小点时，牛顿法可能不受理，原因可能是因为牛顿方向不一定是下降方向，经迭代，目标函数值可能上式，此外，即使目标函数值下降，得到的点$x^{(k+1)}$也不一定是沿牛顿方向的最好点或极小点。

2.2 阻尼牛顿法

牛顿法最突出的优点是收敛速度快，具有局部二阶收敛性，但是，基本牛顿法初始点需要足够“靠近”极小点，否则，有可能导致算法不收敛。这样就引入了阻尼牛顿法，阻尼牛顿法最核心的一点在于可以修改每次迭代的步长，通过沿着牛顿法确定的方向一维搜索最优的步长，最终选择使得函数值最小的步长。

阻尼牛顿法与牛顿法区别在于增加了沿牛顿方向的一维搜索，迭代公式为$x^{(k+1)}=x^{(k)}+\lambda_kd^{(k)}$，其中，$d^{(k)}=-\Delta ^2f(x^{(k)})^{-1}\Delta ^2f(x^{(k)})$为牛顿方向，$\lambda_k$是一维搜索得到的步长，满足$f(x^{(k)}+\lambda_kd^{(k)})=min_{\lambda}f(x^{(k)}+\lambda d^{(k)})$

计算过程：

step 1：取初始点$x^{(1)}$，允许误差$\epsilon>0$，置$k=1$
step 2：计算$\Delta f(x^{(k)})，\Delta ^2 f(x^{(k)})^{-1}$
step 3：若$||\Delta f(x^{(k)})||<\epsilon$，则停止计算，否则，令$d^{(k)}=-\Delta ^2 f(x^{(k)})^{-1}\Delta f(x^{(k)})$
step 4：从$x^{(k)}$出发，沿方向$d^{(k)}$作一维搜索，$f(x^{(k)}+\lambda_kd^{(k)})=min f(x^{(k)}+{\lambda}d^{(k)})$，令$x^{(k+1)}=x^{(k)}+\lambda_kd^{(k)}$
step 5：置$k=k+1$，转step 2

三、拟牛顿家族

前面介绍了牛顿法，它的突出优点是收敛很快，但是运用牛顿法需要计算二阶偏导数，而且目标函数的Hesse矩阵可能非正定。为了克服牛顿法的缺点，人们提出了拟牛顿法，它的基本思想是用不包含二阶导数的矩阵近似牛顿法中的Hesse矩阵的逆矩阵。由于构造近似矩阵的方法不同，因而出现不同的拟牛顿法。

拟牛顿法公式推导：

设在第k次迭代后，得到点$x^{(k+1)}$，将目标函数$f(x)$在点$x^{(k+1)}$展开成二阶泰勒级数$f(x)\approx f(x^{(k+1)})+\Delta f(x^{(k+1)})^T(x-x^{(k+1)})+\frac{1}{2}(x-x^{(k+1)})^T\Delta^2f(x^{(k+1)}))(x-x^{(k+1)})$

令$x=x^{(k)}$，则$f(x^{(k)})\approx f(x^{(k+1)})+\Delta f(x^{(k+1)})^T(x-x^{(k+1)})+\frac{1}{2}(x-x^{(k+1)})^T\Delta^2f(x^{(k+1)}))(x^{(k)}-x^{(k+1)})$

记$p^{(k)}=x^{(k+1)}-x^{(k)} $，$q^{(k)}=\Delta f(x^{(k+1)})-\Delta f(x^{(k)})$则$q^{(k)} \approx \Delta^2 f(x^{(k+1)})p^{(k)}$

又设Hesse矩阵$\Delta ^2f(x^{(k+1)})$可逆，则$p^{(k)} \approx \Delta^2 f(x^{(k+1)})^{-1}q^{(k)}$

计算出$p^{(k)}$和$q^{(k)}$后，可以根据上式估计在$x^{(k+1)}$处的Hesse矩阵的逆，所以拟牛顿的条件就是$p^{(k)}=H_{k+1}q^{(k)}$

wiki关于拟牛顿法的公式

Method	$B_{k+1}$	$H_{k+1}$
DFP		$H_{k+1} = H_k+\frac{p^{(k)}p^{(k)T}}{p^{(k)T}q^{(k)}}-\frac{H_kq^{(k)}q^{(k)T}H_k}{q^{(k)T}H_kq^{(k)}} $
BFGS	$B_{k+1} = B_k+\frac{q^{(k)}q^{(k)T}}{q^{(k)T}p^{(k)}}-\frac{B_kp^{(k)}p^{(k)T}B_k}{p^{(k)T}B_kp^{(k)}}$

3.1 DFP

用不包含二阶导数的矩阵$H_k$近似代替牛顿法中的Hesse矩阵的逆矩阵$G_k^{-1}$。

秩1校正推导过程：当G为n阶对称正定矩阵时，满足拟牛顿条件的矩阵$H_k$也应该是n阶对称正定矩阵，构造策略为，$H_1$取为任意一个n阶对称正定矩阵，通常选择为n阶单位矩阵I，然后通过修正$H_k$给出$H_{k+1}$，

令$H_{k+1}=H_k+\Delta H_k$，（1）

其中，$\Delta H_k$称为校正矩阵。

令$\Delta H_k=\alpha_kz^{(k)}(z^{(k)T})$，（2）

$\alpha_k$是一个常数，$z^{(k)}$是n维列向量，这样定义的$\Delta H_k$是秩为1的对称矩阵，

令$p^{(k)}=H_kq^{(k)}+\alpha_kz^{(k)}z^{(k)T}q^{(k)}$，（3）

由此得到$z^{(k)}=\frac{p^{(k)}-H_kq^{(k)}}{\alpha_kz^{(k)T}q^{(k)}}$，（4）

另一方面，（3）式等号两端左乘以$q^{(k)T}$，整理得到

$q^{(k)T}(p^{(k)}-H_kq^{(k)})=\alpha_k(z^{(k)T}q^{(k)})^2$，（5）

利用（2）（4）（5），把（1）式写成：

$H_{k+1} = H_k+\frac{p^{(k)}-H_kq^{(k)}p^{(k)}-H_kq^{(k)T}}{q^{(k)T(p^{(k)}-H_kq^{(k)})}}$

后来，Davidon首先提出DFP，又被Fletcher和Powell改进，定义校正矩阵为 $\frac{p^{(k)}p^{(k)T}}{p^{(k)T}q^{(k)}}-\frac{H_kq^{(k)}q^{(k)T}H_k}{q^{(k)T}H_kq^{(k)}}$
这样得到的矩阵为$H_{k+1}=H_k+\frac{p^{(k)}p^{(k)T}}{p^{(k)T}q^{(k)}}-\frac{H_kq^{(k)}q^{(k)T}H_k}{q^{(k)T}H_kq^{(k)}}$

输入：目标函数$f(x)$，梯度$g(x)=\Delta f(x)$，精度要求$\epsilon$

输出：$f(x)$的极小点$x^*$

step 1：取初始点$x^{(0)}$，取$H_0$为正定对称矩阵，置$k=0$
step 2：计算$g_k=g(x^{(k)})$，若$||g_k||\leq\epsilon$，则停止计算，得近似解$x^*=x^{(k)}$；否则转step 3
step 3：置$p_k=-H_kg_k$
step 4：一维搜索：求$\lambda_k$使得$f(x^{(k)}+\lambda_kp_k)=min f(x^{(k)}+{\lambda}p_k)$，$\lambda\geq0$
step 5：置$x^{(k+1)}=x^{(k)}+\lambda_kp_k$
step 6：计算$g_{k+1}=g(x^{(k+1)})$，若$||g_{k+1}|| < \epsilon$，则停止计算，得近似解$x^*=x^{(k+1)}$，否则，则计算出$H_{k+1}$
step 7：置$k=k+1$，转step 3

疑问：怎么确定$H_0$? https://www.zhihu.com/question/269123324/answer/345679876

3.2 BFGS

用不包含二阶导数的矩阵$B_k$近似代替牛顿法中的Hesse矩阵$G_k$。

$H_{k+1}=B_{k+1}^{-1}$

关于矩阵$B$的BFGS公式：

$B_{k+1} = B_k+\frac{q^{(k)}q^{(k)T}}{q^{(k)T}p^{(k)}}-\frac{B_kp^{(k)}p^{(k)T}B_k}{p^{(k)T}B_kp^{(k)}}$

输入：目标函数$f(x)$，梯度$g(x)=\Delta f(x)$，精度要求$\epsilon$

输出：$f(x)$的极小点$x^*$

step 1：取初始点$x^{(0)}$，取$B_0$为正定对称矩阵，置$k=0$
step 2：计算$g_k=g(x^{(k)})$，若$||g_k||\leq\epsilon$，则停止计算，得近似解$x^*=x^{(k)}$；否则转step 3
step 3：由$B_kp_k=-g_k$求出$p_k$
step 4：一维搜索：求$\lambda_k$使得$f(x^{(k)}+\lambda_kp_k)=min f(x^{(k)}+{\lambda}p_k)$，$\lambda\geq0$
step 5：置$x^{(k+1)}=x^{(k)}+\lambda_kp_k$
step 6：计算$g_{k+1}=g(x^{(k+1)})$，若$||g_{k+1}|| < \epsilon$，则停止计算，得近似解$x^*=x^{(k+1)}$，否则，则计算出$B_{k+1}$
step 7：置$k=k+1$，转step 3

关于矩阵$H$的BFGS公式：

$H_{k+1}^{BFGS} = H_k+(1+\frac{q^{(k)T}H_kq^{(k)}}{p^{(k)T}q^{(k)}})\frac{p^{(k)}p^{(k)T}}{p^{(k)T}q^{(k)}}-\frac{p^{(k)}q^{(k)T}H_k+H_kq^{(k)}p^{(k)T}}{p^{(k)T}q^{(k)}}$

这个重要公式是由Broyden,Fletcher,Goldfard和Shanno于1970年提出的，所以简称为BFGS

疑问：为什么BFGS会比DFP流行？https://www.zhihu.com/question/269123324/answer/345679876

BFGS有自动纠错功能

3.3 L-BFGS

　　在BFGS算法中，仍然有缺陷，比如当优化问题规模很大时，矩阵的存储和计算将变得不可行。为了解决这个问题，就有了L-BFGS算法。L-BFGS即Limited-memory BFGS。 L-BFGS的基本思想是只保存最近的m次迭代信息，从而大大减少数据的存储空间。对照BFGS，重新整理一下公式：

具体步骤参考：https://zhuanlan.zhihu.com/p/29672873

L-BFGS算法为什么快？https://www.zhihu.com/question/49418974/answer/155668749

四、共轭梯度法（Conjugate Gradient）

共轭：设$A$是对称正定矩阵，若$R^{n}$中的两个方向$d^{(1)}$和$d^{(2)}$满足$d^{(1)T}Ad^{(2)}=0$，则称这两个方向关于$A$共轭，或称它们关于$A$正交

定理：对于二次凸函数，若沿一组共轭方向（非零向量）搜索，经有限步迭代必达到极小点。

共轭梯度法基本思想：把共轭性与最速下降法结合，利用已知点处的梯度构成一组共轭方向，并沿这组方向进行搜索，求出目标函数的极小点，根据共轭方向的基本性质，这种方法具有二次终止性。

4.1 FR

$\beta_j=\frac{||g_{i+1}||^2}{||g_{i}||^2}$

二次函数计算步骤：

step 1：给定初始点$x^{(1)}$，置k=1

step 2：计算$g_k=\Delta f(x^{(k)})$，若$||g_k||=0$，则停止计算，得点$\bar x=x^{(k)}$；否则，进行下一步

step 3：构造搜索方向，令$d^{(k)}=-g_k+\beta_{k-1}d^{(k-1)}$，其中，当$k=1$时，$\beta_{k-1}=0$时，计算因子$\beta_{k-1}$

step 4：令$x^{(k+1)}=x^{(k)}+\lambda_kd^{(d)}$，计算步长$\lambda_k=-\frac{g_k^Td^{(k)}}{d^{(k)T}Ad^{(k)}}$

step 5：若$k=n$，则停止计算，得点$\bar x=x^{(k+1)}$；否则，置$k:=k+1$，返回step 2

任意凸函数计算步骤：

step 1：给定初始点$x^{(1)}$，允许误差$epsilon>0$，置$y^{(1)}=x^{(1)}，d^{(1)}=\Delta f(y^{(1)})，k=j=1$

step 2：若$||\Delta f(y^{(j)})||<\epsilon$，则停止计算；否则，作一维搜索，求$\lambda_j$，求满足$f(y^{(j)}+\lambda_jd^{(j)})=min_{\lambda >= 0}(y)$

step 3：如果$j<n$，则进行step 4；否则，进行step 5

step 4：令$d^{(j+1)}=-\Delta f(y^{(j+1)})+\beta_jd^{(j)}$，其中，$\beta_j=\frac{||\Delta f(y^{(j+1)})||^2}{||\Delta f(y^{(j)})||^2}$，置$j:=j+1$，转step 2

step 5：令$x^{(k+1)}=y^{(n+1)}，y^{(1)}=x^{(k+1)}，d^{(1)}=-\Delta f(y^{(1)})$，置$j=1，k:=k+1$，转step 2

4.2 PRP

$\beta_j=\frac{g_{j+1}^T(g_{j+1}-g_j)}{g_j^Tg_j}$

任意凸函数计算步骤：

step 1：给定初始点$x^{(1)}$，允许误差$epsilon>0$，置$y^{(1)}=x^{(1)}，d^{(1)}=\Delta f(y^{(1)})，k=j=1$

step 2：若$||\Delta f(y^{(j)})||<\epsilon$，则停止计算；否则，作一维搜索，求$\lambda_j$，求满足$f(y^{(j)}+\lambda_jd^{(j)})=min_{\lambda >= 0}(y)$

step 3：如果$j<n$，则进行step 4；否则，进行step 5

step 4：令$d^{(j+1)}=-\Delta f(y^{(j+1)})+\beta_jd^{(j)}$，其中，$\beta_j=\frac{g_{j+1}^T(g_{j+1}-g_j)}{g_j^Tg_j}$，置$j:=j+1$，转step 2

step 5：令$x^{(k+1)}=y^{(n+1)}，y^{(1)}=x^{(k+1)}，d^{(1)}=-\Delta f(y^{(1)})$，置$j=1，k:=k+1$，转step 2

　　共轭梯度法是介于最速下降法与牛顿法之间的一个方法，它仅需利用一阶导数信息，但克服了最速下降法收敛慢的缺点，又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点，共轭梯度法不仅是解决大型线性方程组最有用的方法之一，也是解大型非线性最优化最有效的算法之一。在各种优化算法中，共轭梯度法是非常重要的一种。其优点是所需存储量小，具有步收敛性，稳定性高，而且不需要任何外来参数。

五、比较

梯度下降法和牛顿法的比较：

从本质来说，梯度下降法是一阶收敛，牛顿法是二阶收敛，所以牛顿法的收敛速度更快。梯度下降法每次考虑的是当前位置的负梯度下降，而牛顿法不但考虑当前位置下降的是否够快，还会考虑下一步下降的是否够大，也就是说牛顿法目标更长远一点。牛顿法是用一个二次曲面去拟合你当前所处位置的局部曲面，而梯度下降法使用一个平面去拟合当前的局部曲面，通常情况二次曲面拟合会比平面更好，所以牛顿法的下降路径会更符合真实的最优下降路径。

来源

参考文献：

【1】常见的几种最优化方法（梯度下降法、牛顿法、拟牛顿法、共轭梯度法等）

【2】深度学习实战教程(二)：线性单元和梯度下降

【3】梯度下降（Gradient Descent）小结

【4】https://www.jianshu.com/p/e8b5a384a970

【5】https://blog.csdn.net/philosophyatmath/article/details/70153705

【6】梯度下降法、牛顿法、拟牛顿法三类迭代法应用场景有何差别？

posted @ 2019-02-26 20:22 nxf_rabbit75 阅读(1862) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部