牛顿法收敛性


经典牛顿法:

首先,设$f(x)$二阶连续可微,则在迭代算法中第$k$步,$x_k$处泰勒展开:
$$f(x_k+d_k)=f(x_k)+\nabla f(x_k)^Td_k+\frac{1}{2}(d_k)^T\nabla^2f(x_k)d_k+o(\Vert d_k \Vert^2)$$
如果忽略高阶项,并将上面看成$d_k$的函数再求其稳定点,则
$$\nabla^2f(x_k)d_k=-\nabla f(x_k)$$
于是,迭代的更新方法为:
$$x_{k+1}=x_k-\nabla^2f(x_k)^{-1}\nabla f(x_k)$$
这种方式称为牛顿法(经典).

收敛性分析:

收敛的前提条件:

(1)$f$是二阶连续可微的;

(2)海瑟矩阵在最优解$x^*$的一个领域$N_{\delta_0} (x^*)$是$L-$利普希茨连续的,即$$\exists L >0,s.t. \Vert \nabla^2f(x)-\nabla^2f(y)\Vert \leq L \Vert x-y \Vert,\forall x,y \in N_\delta(x^*)$$

(3)在最优解$x^*$处满足,$\nabla f(x^*)=0,\nabla^2f(x^*)\succ 0$

则有如下收敛的结论:

(1)如果初始点距离$x^*$足够近,则牛顿法产生的迭代点列$\{x^k\}$收敛于$x^*$;

(2)$\{x^k\}$收敛于$x^*$的速度是$Q-$二次的;

(3)$\{\Vert \nabla f(x^k)\Vert\}$$Q-$二次收敛于$0$;

Proof:

\begin{align*}
x^{k+1} & = x^k-\nabla^2f(x^k)^{-1}\nabla f(x^k)\\
x^{k+1} -x^*& = x^k-x^*-\nabla^2f(x^k)^{-1}\nabla f(x^k)\\
&=\nabla^2f(x^k)^{-1}[\nabla^2f(x^k)(x^k-x^*)-(\nabla f(x^k)-\nabla f(x^*))]
\end{align*}
又因为$$\nabla f(x^k)-\nabla f(x^*)=\int_{0}^{1}\nabla^2f(x^k+t(x^*-x^k))(x^k-x^*)dt$$
则有
\begin{align*}
& \Vert \nabla^2f(x^k)(x^k-x^*)-(\nabla f(x^k)-\nabla f(x^*)) \Vert\\
=&\Vert \int_{0}^{1}[\nabla^2f(x^k+t(x^*-x^k))-\nabla^2f(x^k)](x^k-x^*)dt \Vert\\
\leq & \int_{0}^{1}\Vert[\nabla^2f(x^k+t(x^*-x^k))-\nabla^2f(x^k)]\Vert\Vert(x^k-x^*)\Vert dt \\
\leq & \Vert(x^k-x^*)\Vert^2 \int_{0}^{1}Ltdt\\
=& \frac{L}{2}\Vert(x^k-x^*)\Vert^2
\end{align*}
第二个不等式根据海瑟矩阵的局部李普希茨连续得到。
又由于$\nabla^2f(x^*)$正定,且$f$二阶连续可微,所以存在$r>0$,使得满足$\Vert x-x^* \Vert\leq r$的$x$有$\Vert \nabla^2 f(x)^{-1} \Vert \leq \Vert \nabla^2 f(x^*)^{-1} \Vert$\\
综上取$\delta=min\{\delta_0,r,\frac{1}{2L \Vert \nabla^2 f(x^*)^{-1} \Vert}\}$,则只要保证初始点$x_0\in N_{\delta}x^*$,即可保证二阶收敛到$x^*$。

从迭代格式可知$d^k=-\nabla^2f(x^k)^{-1}\nabla f(x^k)$,则
\begin{align*}
&\Vert \nabla f(x^{k+1}) \Vert\\
=&\Vert \nabla f(x^{k+1}) -\nabla f(x^k)-\nabla^2f(x^k)d^k\Vert\\
=&\Vert \int_0^1 \nabla^2 f(x^k+td^k)d^kdt-\nabla^2f(x^k)d^k\Vert\\
=&\Vert \int_0^1 [\nabla^2 f(x^k+td^k)-\nabla^2f(x^k)]d^k dt\Vert\\
\leq& \int_0^1\Vert \nabla^2 f(x^k+td^k)-\nabla^2f(x^k)\Vert \Vert d^k\Vert dt
\leq &\frac{L}{2}\Vert d^k \Vert=\frac{L}{2}\Vert \nabla^2f(x^k)^{-1} \Vert \Vert \nabla f(x^k) \Vert\\
\leq & L \Vert \nabla^2f(x^*)^{-1} \Vert \Vert \nabla f(x^k) \Vert
\end{align*}
于是$\{\nabla f(x^k)\}$二阶收敛到$0$

posted @ 2024-01-21 00:09  来者可追2019  阅读(168)  评论(0编辑  收藏  举报