次梯度算法的收敛性

次梯度算法：

梯度下降法的迭代格式为$$x_{k+1}=x_k-\alpha_k\nabla f(x_k)$$
但是对于不可微的凸函数，梯度并不存在，于是使用此梯度算法：
$$x_{k+1}=x_k-\alpha_k g_k)$$其中$g_k\in \partial f(x_k)$

次梯度算法的收敛性证明：

假设：$f$是凸函数且存在最小值点$f^*$，且是$G-$利普西茨连续的，即$$\vert f(x)-f(y)\vert\leq G\Vert x-y\Vert ,\forall x,y\in \mathbb{R}^n$$

引理：在前提假设下，$f$的次梯度一致有界，即$$\exists M>0,s.t.\Vert g \Vert<M.\forall g \in \partial f(x),\forall x\in \mathbb{R}^n $$

收敛性：$$2\left(\sum_{i=0}^k \alpha_i\right)\left( {\mathop{f}^{-}}_k\right)\leq \Vert x_0-x^*\Vert + \sum_{i=0}^k \alpha_i^2 G^2 $$
其中${\mathop{f}\limits^{-}}_k=\mathop{min}\limits_{0\leq i\leq k} f_i$

proof：
\begin{align*}
\Vert x_{i+1}-x^*\Vert^2&=\Vert x_i-\alpha_ig_i-x^*\Vert\\
&=\Vert x_i-x^*\Vert^2-2\alpha_i\left< g_i, x_i-x^* \right> +\alpha_i+\Vert g_i \Vert^2\\
&\leq \Vert x_i-x^*\Vert^2-2\alpha_i\left( f_i-f^* \right) +\alpha_i G^2
\end{align*}
于是得到$$2\alpha_i\left( f_i-f^* \right)\leq \Vert x_i-x^*\Vert^2-\Vert x_{i+1}-x^*\Vert^2+\alpha_i^2 G^2$$
分别令$i=0,1,\dots,k$再累加得到
$$2\sum_{i=0}^k\alpha_i\left( f_i-f^* \right)\leq\Vert x_0-x^*\Vert^2+G^2\sum_{i=0}^k\alpha_i^2 $$
于是进一步得到：
$$2\left( \sum_{i=0}^k\alpha_i\right) \left( {\mathop{f}\limits^{-}}_i-f^* \right)\leq\Vert x_0-x^*\Vert^2+G^2\sum_{i=0}^k\alpha_i^2 $$

如果取$\alpha_i=\frac{1}{i}$，易得算法收敛。

posted @ 2024-04-27 19:34 来者可追2019 阅读(87) 评论(0) 收藏举报

刷新页面返回顶部

来者可追

诗酒趁年华

次梯度算法的收敛性

公告