梯度下降以及牛顿法

回顾一些参数估计的方法，包括梯度下降算法和牛顿法及其扩展

梯度下降算法(Gradient Descent, GD)

目的是优化参数，使得估计值与真实值的误差最小。试用于优化目标形式为:

$h(\theta)=\sum_{i=0}^{n}\theta_{i}x_{i}$

其中 $\theta$ 表示特征权重， $n$ 表示样本的以 $n$ 维特征描述， $x$ 为样本。

1, 批梯度下降算法(batch gradient decent, BGD)

样本集合损失函数为

$J(\theta)=\frac{1}{2m}\sum_{j=0}^{m}(y^{j}-h_{\theta}(x^{j}))^2"$

其中 $m$ 为样本个数， $y$ 为正确输出。分别对每维的参数 $\theta_{i}$ 求导得

$grad(\theta_{i})=\frac{\partial{J(\theta)}}{\partial{\theta_{i}}}=-\frac{1}{m}\sum_{j=0}^{m}(y^{j}-h_{\theta}(x^{j}))x_{i}^{j}$

因此每次按照负梯度的方向更新参数

$\theta_{i}=\theta_{i}+grad(\theta_{i})$

2, 随机梯度下降算法(stochastic gradient descent, SGD)

唯一不同于BGD，SGD每次迭代随机选取一个样本，更新参数。

对于单个样本j的损失函数为

$cost_{j}(\theta)=\frac{1}{2}(y^{j}-h_{\theta}(x^{j}))^2$

由此可以看出，BGD中样本集合的损失函数为单个样本损失函数的和

SGD中，针对单个样本损失函数，对每维的参数求导得

$grad(\theta_{i})=\frac{\partial{J(\theta)}}{\partial{\theta_{i}}}=-\frac{1}{m}\sum_{j=0}^{m}(y^{j}-h_{\theta}(x^{j}))x_{i}^{j}$

更新参数为

$\theta_{i}=\theta_{i}+grad_{j}{(\theta_{i})}$

每轮迭代的过程中，SGD比BGD计算量至少缩减了 $m$ 倍，SGD的前提是保证了样本的随机性，同一个样本可能被选取多次。

L-BFGS 算法

1，牛顿法

首先将目标函数用Taylor公式在某点展开。Taylor展开式所表示的意义为：

已知函数某点的各个阶导数，可以拟合出函数在这个点周围的值，因此如果某点为极小值附近的点，则可以估算出函数的极小值。

用Taylor公式将函数 $f(x)$ 在某点展开，将此Taylor展开式求导估计可能的极小值

一维：

$\varphi(x)=f(x_{k})+f'(x_{k})(x-x_{k})+\frac{1}{2}f''(x_{k})(x-x_{k})^2$

$x_{k+1}=x_{k}-\frac{f'(x_{k})}{f''(x_{k})}$

多维：

$\varphi(x)=f(x_{k})+\nabla f(x_{k})(x-x_{k})+\frac{1}{2}(x-x_{k})^T\nabla^2f(x_{k})(x-x_{k})$

$x_{k+1}=x_{k}-[\nabla^2f(x_{k})]^{-1}\nabla f(x_{k})$

对于凸函数一定收敛；而对于非凸函数，是否收敛取决于初始选取的点是否为极小值周围的点。如果远离极小值点则不收敛。因此提出阻尼牛顿法，确定某点的搜索方向做一维搜索，找到当前极小值，然后再重新找搜索方向。

2，阻尼牛顿法

即在更新时先确定搜索方向

$d_{k}=-[\nabla^2f(x_{k})]^{-1}\nabla f(x_{k})$

然后在此方向上找到可更新的极小值

$d_{k}=-[\nabla^2f(x_{k})]^{-1}\nabla f(x_{k})$

牛顿法使用的限制条件为二阶导矩阵(Hesse)正定，因此复杂的目标函数很难保证Hesse矩阵可逆，因此导致牛顿法失效，因此提出拟牛顿法

3，拟牛顿法 (BFGS)

用方法近似计算Hesse矩阵，用 $H_{k+1}$ 表示近似构造的Hesse矩阵。 $H_{0}=I$ 为单位矩阵，然后同过DFP公式或者BFGS公式计算之后的Hesse矩阵 $H_{k+1}=H_{k}+\Delta H$

首先规定 $s_{k}=x_{k+1}-x_{k}$ 和 $y_{k}=\nabla f(x_{k+1})-\nabla f(x_{k})$

不加证明地给出DFP公式

$\Delta H=\frac{s_{k}s_{k}^{T}}{s_{k}^{T}y_{k}}-\frac{H_{k}y_{k}y_{k}^{T}H_{k}}{y_{k}^{T}H_{k}y_{k}}$

BFGS公式为其DFP的对偶公式

$\Delta H=[1+\frac{y_{k}^{T}H_{k}y_{k}}{s_{k}^{T}y_{k}}]\frac{s_{k}s_{k}^{T}}{s_{k}^{T}y_{k}}-\frac{s_{k}y_{k}^{T}H_{k}}{s_{k}^{T}y_{k}}$

在BFGS迭代过程中需要设置中断条件，因此具体算法过程为

a) 初始化 $x_{0}$ ，k=0，收敛依据e

b) 令为 $H_{0}$ 单位矩阵

c) 计算一阶导数矩阵(梯度) $g_{k}$ ，确定优化方向 $d_{k}=H_{k}g_{k}$

d) 使用一维搜索极小值 $d_{k}=-[\nabla^2f(x_{k})]^{-1}\nabla f(x_{k})$

e) 判断是否收敛，否则继续6

f) 利用BFGS公式计算 $H_{k+1}$ , k=k+1继续c

由于BFGS每次迭代过程都需要记录H（N*N）维矩阵，存储空间至少为N(N+1)/2。优化计算存储空间，则提出L-BFGS

4，限域拟牛顿法(Limited Storege BFGS，L-BFGS)

根据BFGS重写H矩阵的修正公式

$H_{k+1}=v_{k}^{T}H_{k}v_{k}+\rho_{k}s_{k}s_{k}^{T}$

其中 $\rho_{k}=\frac{1}{y_{k}^{T}s_{k}}$ ，则

BFGS中H的修正过程为

$H_{k+1}=v_{k}^{T}v_{k-1}^{T}...v_{0}^{T}H_{0}v_{0}...v_{k-1}v_{k}\\+v_{k}^{T}v_{k-1}^{T}...v_{0}^{T}\rho_{0}s_{0}s_{0}^{T}v_{0}...v_{k-1}v_{k}\\+v_{k}^{T}v_{k-1}^{T}...v_{1}^{T}\rho_{1}s_{1}s_{1}^{T}v_{1}...v_{k-1}v_{k}\\+v_{k}^{T}v_{k-1}^{T}...v_{2}^{T}\rho_{2}s_{2}s_{2}^{T}v_{2}...v_{k-1}v_{k}\\+...\\+\rho_{k}s_{k}s_{k}$

L-BFGS中H 的修正过程为（只记录最近的m次）

$H_{k+1}=v_{k}^{T}v_{k-1}^{T}...v_{k-m+1}^{T}H_{0}v_{k-m+1}...v_{k-1}v_{k}\\+v_{k}^{T}v_{k-1}^{T}...v_{k-m+1}^{T}\rho_{0}s_{0}s_{0}^{T}v_{k-m+1}...v_{k-1}v_{k}\\+v_{k}^{T}v_{k-1}^{T}...v_{k-m+2}^{T}\rho_{1}s_{1}s_{1}^{T}v_{k-m+2}...v_{k-1}v_{k}\\+v_{k}^{T}v_{k-1}^{T}...v_{k-m+3}^{T}\rho_{2}s_{2}s_{2}^{T}v_{k-m+3}...v_{k-1}v_{k}\\+...\\+\rho_{k}s_{k}s_{k}$

用于限制存储空间，用于BFGS每次迭代过程都需要记录H（N*N）维矩阵，存储空间至少为N(N+1)/2,用于H是由单位矩阵（存储空间为N）一步步修正得来一次，只需记录修正的过程。假设L-BFGS只记录修正前m步修正，则只需记录2m+1个N维向量。

posted @ 2014-06-11 15:26 LeonCrash 阅读(1597) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

LeonCrash

http://jmliunlp.wordpress.com/

梯度下降以及牛顿法

公告