牛顿法

牛顿法法主要是为了解决非线性优化问题，其收敛速度比梯度下降速度更快。其需要解决的问题可以描述为：对于目标函数f(x)，在无约束条件的情况下求它的最小值。

其中x=(x1,x2,..,xn)是n维空间的向量。我们在下面需要用到的泰勒公式先在这写出来。

牛顿法的主要思想是：在现有的极小值估计值的附近对f(x)做二阶泰勒展开，进而找到极小点的下一个估计值，反复迭代直到函数的一阶导数小于某个接近0的阀值。

为了便于理解，我们通常先从简单的开始进行分析，于是我们就先从x的维度n=1时开始进行讨论。

1）n=1时。

设x=x_t时，函数f(x)取得最小值，我们的目标就是希望能求得x_t，现在我们设x_k作为x_t的估计值。首先我们在x=x_k处进行泰勒二阶展开，得：

然后对f(x)求导，得：

令：，即：

所以有：

若从初始值x=x₀开始进行迭代，将得到x的一个序列：x₀,x₁,…x_k。在一定条件下，此序列可以收敛到f(x)的极小值点。

2）n>1时。

此时，可以将x写成：x=(x₁,x₂,…,x_n)。同样，我们先对x进行泰勒展开：

　　然后对f(x)求导，此处的求导比n=1的情形要复杂一点，由于f(x)中的x是一个向量，f(x)对x求导意味着对x向量中的每个值求偏导。即，f(x)对x的一阶导数为一个向量，对x的二阶导数为一个n*n的矩阵。

　　求导后得：

（式1.1）

　　为了方便表达，我们令：

　　此时的g_k为一个向量，H_k为一个矩阵。

　　我们令（式1.1）中的f(x)导数为0，得：

　　即：

　　所以：

　　得到x的迭代值为：

牛顿法算法流程：

1）初始化x0，设置终止阀值a，令k=0.

2）计算f(x)在x=x_k的梯度向量g_k和海塞矩阵H_k^-1的逆矩阵，其计算公式为：

3）判断||gk||<a，则停止计算，得到x=xk即为所求。

4）更新x：，转移至第2）步。

算法分析：

1）前提：

要使用该算法要满足两个条件：一是函数f(x)一阶，二阶可偏导；二是海塞矩阵要求正定。若要使得最终结果能收敛到最小值，则f(x)需要为凸函数。

当f(x)满足：时，海塞矩阵为对称矩阵，对所有特征值大于0的对称矩阵称为正定矩阵。正定矩阵一定是非奇异矩阵。

附：若A为奇异矩阵，则有：|A|=0.

2）优点：

它比传统的梯度下降算法收敛速度明显要快，另外，当f(x)是二次函数时，仅需一次迭代就能直接收敛到最小值。因为f(x)为二次函数时，在进行泰勒展开式，并没有高阶导数的损失，而在后面的每次计算都是等号运算，因而最后得到结果就是函数f(x)最小值对应的x。而对于非二次函数，若函数的二次形态较强，或迭代点已进入极小点的领域内，则其收敛速度也会很快。

3）缺点：

A）计算复杂度问题。

　　在上面的这个算法中存在一个问题，即海塞矩阵的计算问题，此问题需要对f(x)求二阶偏导数，计算开销很大；另一方面，海塞矩阵的大小是n的平方，当n增大时，存储和计算的量是平方的速度增加。

　　针对计算复杂度问题，于是有了拟牛顿法。

B）收敛性问题。

　　对于非二次函数，也可能会出现f(x_k+1)>f(x_k)的情况，这时，牛顿法不能收敛，从而导致计算失败。对于这种情况，可以使用阻尼牛顿法来解决。

　　阻尼牛顿法最核心的一点在于可以修改每次迭代的步长，通过沿着牛顿法确定的方向一维搜索最优的步长，最终选择使得函数值最小的步长。

　　关于步长的搜索，主要有精确搜索和非精确搜索，上面的方法是一种精确地搜索方法，在实际中还有Wolfe型搜索，Armijo搜索以及满足Goldstein条件的非精度搜索。具体的搜索方法大家可自行研究。

参考文献：

[1] peghoty, http://blog.csdn.net/itplus/article/details/21896453

[2]李航，统计学习方法。

posted @ 2015-07-26 21:49 liuwu265 阅读(10924) 评论(1) 收藏举报

刷新页面返回顶部