First Order Method in Optimization

这篇文章想阐述一阶优化算法，尽可能的做到全面。

Gradient Descent Method

考虑无约束优化问题

$\min f(x)$

Gradient Descent Method 有如下迭代形式：

$x^{k+1}=x^k-\alpha_k \triangledown f(x^k)$

这里的 $\alpha_k$ 为步长，不同的步长构造策略生成了不同的梯度算法，例如，

$\alpha_k=\arg\min_{\alpha}f(x^k-\alpha \triangledown f(x^k))$

则为最速下降法，如果

$\alpha_k=\frac{s_k^Ts_k}{s_k^Ty_k}$

这里的 $s_k=x^k-x^{k-1},y_k=\triangledown f(x^k)-\triangledown f(x^{k-1})$ , 这时候为BB算法。

Proximal Point Algorithm

还是考虑无约束凸优化问题

$\min f(x)$

Proximal Point Algorithm 有如下形式：

$x^{k+1}=\arg\min\{f(x)+\frac{1}{2\gamma_k}\|x-x^k\|\}$

$=prox_{\gamma_k f}(x^k)$

$x^{k+1}=x^k-\gamma_k \triangledown f(x^{k+1})$

Proximal Gradient Algorithm

考虑可分离凸问题：

$\min f(x)+g(x)$

这里假设 $f \quad \mbox{is convex },g \quad \mbox{is convex and smooth}$ , 在第k步迭代，Proximal Gradient Algorithm 将 $g$ 作二次展开

有如下形式：

$x^{k+1}=\arg\min\{f(x)+\frac{1}{2\gamma_k}\|x-(x^k-\gamma_k \triangledown g(x^k))\|\}$

这个算法有很多的加速策略，比如著名的FISTA。之后再介绍。

Dual Gradient Method

考虑线性约束凸问题：

$\min f(x) \quad \mbox{subject to }Ax=b$

首先构建朗格朗日函数

$\mathcal{L}(x;y)=f(x)+y^T(Ax-b)$

其中 y 为对偶变量，对应的对偶函数为：

$d(y)=\min_x\mathcal{L}(x;y)$

我们构建对偶问题：

$\max_y d(y)$

对该问题执行Gradient Descent Method

$y^{k+1}=y^k+\gamma \triangledown d(y^k)$ (极大化问题所以是梯度方向而不是梯度的反方向)

现在的问题是上式中的梯度怎么计算，对于一般的 f ，有没有好的表示方式呢？答案是有的。对偶函数的梯度 $\triangledown d(y)$ 可以表述为

$\triangledown d(y) =Ax^*-b$ where $x^*=\arg\min_x \mathcal{L}(x;y)$

现在我给出对偶梯度算法的迭代

$x^k=\arg\min_x \mathcal{L}(x;y^k)$

$y^{k+1}=y^k+\gamma(Ax^k-b)$

Dual Proximal Point Method

还是考虑上述的线性约束问题，这次我将PPA应用到对偶问题中，即

$y^{k+1}=\mbox{prox}_{-\gamma d}(y^k)=y^k+\gamma \triangledown d(y^{k+1})$

现在的问题是计算梯度，由上一节中可以知道：

$Ax^{k+1}-b\in\triangledown d(y^{k+1}) \qquad \mbox{where } \qquad x^{k+1}\in \arg\min_x \mathcal{L}(x;y^{k+1})$

但是在计算 $x^{k+1}$ 的式子中涉及到了 $y^{k+1}$ , 这变成了先有鸡还是先有蛋的问题了。所以我需要将 $y^{k+1}$ 消掉。

$0\in \partial_x \mathcal{L}(x^{k+1};y^{k+1})=\partial f (x^{k+1})+A^Ty^{k+1}$

$=\partial f (x^{k+1})+A^T(y^k+\gamma (Ax^{k+1}-b))$

$=\partial f (x^{k+1})+A^Ty^k+\gamma A^T(Ax^{k+1}-b))$

所以有

$x^{k+1}\in\arg\min_x\mathcal{L}_A(x;y^k,\gamma)$

这里的 $\mathcal{L}_A(x;y,\gamma)$ 为增广拉格朗日函数

$\mathcal{L}_A(x;y,\gamma)=f(x)+y^T(Ax-b)+\frac{\gamma}{2}\|Ax-b\|^2$

所以综上所述给出如下迭代算法

$x^{k+1}\in\arg\min_x\mathcal{L}_A(x;y^k,\gamma)$

$y^{k+1}=y^k+\gamma (Ax^{k+1}-b)$

这也等价于增广拉格朗日方法（ALM）。

Dual Proximal Gradient Method

考虑线性约束下的可分离问题：

$\min_{x,z}\{f(x)+g(z)\} \\ s.t. Ax+Bz=b$

得到其拉格朗日函数：

$\mathcal{L}(x,z;y) =f(x)+g(z)+y^T(Ax+Bz-b)$

$=(f(x)+y^TAx)+(g(z)+y^T(Bz-b))$

我们令 $\mathcal{L}_1(x;y)=f(x)+y^TAx$ 以及 $\mathcal{L}_2(z;y)=g(z)+y^T(Bz-b)$ . 定义对偶问题

$d(y)=d_1(y)+d_2(y)$

其中

$d_1(y)=-\min_x\mathcal{L}_1(x;y)$

$d_2(y)=-\min_z\mathcal{L}_2(z;y)$

对偶问题变成了一个无约束可分离凸问题，可以采用上面的Proximal Gradient Method求解，即

$y^{k+1}=prox_{\gamma d_2}(I-\gamma \triangledown d_1)y^k$

接下来的问题就是如何计算两个对偶函数的梯度，我们发现在前面的对偶梯度和对偶临近点算法中已经写到了如何计算梯度。这里我们直接用，首先将上面的迭代拆解为两步：向前和向后。

$y^{k+\frac{1}{2}}=y^k-\gamma \triangledown d_1(y^k)$

$y^{k+1}=prox_{\gamma d_2}y^{k+\frac{1}{2}}$ $=y^{k+\frac{1}{2}}-\gamma \triangledown d_2(y^{k+1})$

首先考虑第一个式子，由于 $\triangledown d_1(y^k)=-Ax^k$ , 于是

$y^{k+\frac{1}{2}}=y^k+\gamma Ax^k$

其中的

$x^k=\arg\min_x \mathcal{L}_1(x;y^k)$

对于第二个式子而言，根据 $\triangledown d_2(y^{k+1})=b-Bz^{k+1}$ , 于是

$y^{k+1}=y^{k+\frac{1}{2}}+\gamma (Bz^{k+1}-b)$

其中的

$z^{k+1}=\arg\min_z g(z)+y^T(Bz-b)+\frac{\gamma}{2}\|Bz-b\|^2$

两式结合得到：

$y^{k+1}=y^k+\gamma (Ax^k+Bz^{k+1}-b)$

综合上述的迭代，我们得到最终的算法

$x^k=\arg\min_x f(x)+<y^k,Ax^k>\\ z^{k+1}=\arg\min_z g(z)+<y^k,Bz>+\frac{\gamma}{2}\|Ax^k+Bz-b\|^2\\ y^{k+1}=y^k+\gamma (Ax^k+Bz^{k+1}-b)$

Conditional Gradient Method
Projected Gradient
DC Programming
Augmented Lagrangian Method(ALM)
Alternating Direction Method of Multipliers(ADMM)
Mirror Descent Method

上述的算法有几个方向的扩展，1.Stochastic，2.Coordinate Descent。3.subgradient。4. Accelerated Strategies

未完待续......

posted on 2018-05-05 14:50 快让开我要变身了阅读(2402) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部