有约束优化问题

对于一般形式约束优化问题：

\[\begin{array}{cl} \min & f(x) \\ \mathrm{s.t.} & g_i(x) \leq0, \quad i=1,\cdots ,m \\ & h_i(x) = 0, \quad i=1,\cdots ,l \end{array} \tag{1} \]

后面要讨论的都是假设函数\(f(x),g_i(x),h_i(x)\)均为连续可微函数，有几类不可微函数是可以转化的。比如\(f(x)=\max \{x, x^2\}\)

\(f(x)\)在两个交点的位置是不可微的，可以进行一些变换：

\[\begin{array}{cl} \min & t \\ \mathrm{s.t.} & f(x) = t \\ \end{array} \Longleftrightarrow \begin{array}{cl} \min & t \\ \mathrm{s.t.} & f(x) \leq t \\ \end{array} \]

因为\(t\)最小时肯定是等于\(f(x)\)的，所以上面两个问题是等价的。把\(f(x)\)代入，更具体的形式：

\[\begin{array}{cl} \min & t \\ \mathrm{s.t.} & x \leq t \\ & x^2 \leq t \end{array} \]

这种形式各个函数都是连续可微的，就可以用后面的KKT条件等方法了。

KKT条件

假设\(x^*\)是问题\((1)\)的局部最优解，且\(x^*\)处某种约束规范（Constrint Qualification, CQ）成立，则存在\(\lambda^*,\mu^*\)使得：

\[\left\{\begin{array}{l} g_{i}\left(x^{*}\right) \leq 0, i=1, \cdots, m \\ h_{i}\left(x^{*}\right) =0, i=1, \cdots, l \\ \lambda_{i}^* \geq 0, i=1, \cdots, m \\ \lambda_{i}^* g_{i}\left(x^{*}\right) =0, i=1, \cdots, m \\ \nabla f\left(x^{*}\right)+\sum\limits_{i=1}^{m} \lambda_{i}^* \nabla g_{i}\left(x^{*}\right)+\sum\limits_{i=1}^{l} \mu_{i}^* \nabla h_{i}\left(x^{*}\right)=0 \\ \end{array}\right. \tag{2} \]

以上条件称为KKT条件，\(\lambda_i^*,\mu_i^*\)称为Lagrangian乘子。

对于目标函数和约束函数可微的任意优化问题，KKT条件是原问题最优解的必要条件。「最优解一定满足KKT条件，但满足KKT条件的点不一定是最优解。」

当问题\((1)\)中满足：

\(f(x),g_i(x), i=1,\cdots,m\) 均为凸函数
\(h_i(x), i=1,\cdots,l\) 均为线性函数

即对于凸问题，满足KKT条件的点也是问题\((1)\)的最优解，即KKT条件是一个充要条件。

关于约束规范的说明^[1]^[2]：最常用的CQ是Slater's condition 和 Linearity constraint qualification。满足一条CQ就可以推出最优解处的KKT条件成立。

对偶理论

Lagrange对偶函数

考虑一般形式的约束优化问题：

\[\begin{array}{ll} \min & f(x) \\ \text { s.t. } & g_{i}(x) \leq 0, \quad i=1, \cdots, m \\ & h_{i}(x)=0, \quad i=1, \cdots, l \\ & x \in X \end{array} \tag{1} \]

记可行集为：\(S=\left\{x \in X \mid g_{i}(x) \leq 0, i=1, \cdots, m ; h_{i}(x)=0, i=1, \cdots, l\right\}\)

注意这个\(X\)是\(f(x),g_i(x),h_i(x)\)的定义域，而不是可行域。这里不再要求函数是连续可微的，也可以是离散的，取决于定义域。

所以这个优化问题其实是：

\[\begin{array}{ll} \min & f(x) \\ \text { s.t. } & x \in S \end{array} \tag{2} \]

当这个原问题是非凸时，可以寻找一个与原问题紧密相关、简单的对偶问题。首先引入两个概念：

拉格朗日函数：

\[L(x, \lambda, \mu)=f(x)+\sum_{i=1}^{m} \lambda_{i} g_{i}(x)+\sum_{i=1}^{l} \mu_{i} h_{i}(x) \]

拉格朗日对偶函数（简称对偶函数）：

\[\begin{aligned} d(\lambda, \mu) &= \min\limits_{x \in X}L(x, \lambda, \mu) \\ &=\min_{x \in X} \left\{f(x)+\sum_{i=1}^{m} \lambda_{i} g_{i}(x)+\sum_{i=1}^{l} \mu_{i} h_{i}(x) \right\} \end{aligned} \tag{3} \]

其中 \(\lambda,\mu\) 称为Lagrange乘子，这里的 \(x\) 取自定义域 \(X\)。

对偶函数的两个性质：

对偶函数是凹函数
最优值的下界：当\(\lambda \geq 0\)时，对于\(\forall(\lambda,\mu)\)，其对偶函数的值小于等于原函数最优值：\(d(\lambda,\mu)\leq p^*\) ，证明如下：

\[\begin{align} d(\lambda, \mu)&=\min_{x \in X} \left\{f(x)+\sum_{i=1}^{m} \lambda_{i} g_{i}(x)+\sum_{i=1}^{l} \mu_{i} h_{i}(x) \right\}\tag{4-1} \\ &\leq \min_{x \in S} \left\{f(x)+\sum_{i=1}^{m} \lambda_{i} g_{i}(x)+\sum_{i=1}^{l} \mu_{i} h_{i}(x) \right\}\tag{4-2} \\ & \leq \min_{x \in S}\left\{f(x)\right\} \tag{4-3} \end{align} \]

第2步到第3步是因为在可行集\(S\)上，\(h_i(x)=0\) 且 \(g_i(x)\leq0\)。

Lagrange 对偶问题

对偶函数可以提供原问题最优值 \(p^*\) 的一个下界，但是可以发现当 \(\lambda \geq 0\) 时，对于 \(\forall(\lambda,\mu)\) 都可以提供一个下界，这样满足的值有很多，我们希望可以找到最大的那个下界，即拉格朗日对偶问题。

则原优化问题的拉格朗日对偶问题（简称对偶问题）：

\[\begin{array}{ll} \max & d(\lambda,\mu) \\ \text { s.t. } & \lambda_{i} \geq 0, i=1, \cdots, m \end{array} \tag{5} \]

把\((3)\)式中的对偶函数带进来，可以写出对偶问题的完整形式：\(\max\limits_{\lambda \geq 0,\mu} \min\limits_{x \in X} \left\{f(x)+\sum\limits_{i=1}^{m} \lambda_{i} g_{i}(x)+\sum\limits_{i=1}^{l} \mu_{i} h_{i}(x) \right\}\)

原问题与对偶问题存在以下的关系：

\[\begin{align} \max\limits_{\lambda \geq 0,\mu} \min\limits_{x \in X} \left\{f(x)+\sum\limits_{i=1}^{m} \lambda_{i} g_{i}(x)+\sum\limits_{i=1}^{l} \mu_{i} h_{i}(x) \right\} \tag{Dual problem}\\ \min\limits_{x \in X} \max\limits_{\lambda \geq 0,\mu} \left\{f(x)+\sum\limits_{i=1}^{m} \lambda_{i} g_{i}(x)+\sum\limits_{i=1}^{l} \mu_{i} h_{i}(x) \right\} \tag{Primal problem}\\ \end{align} \]

证明如下：

例：给出如下线性规划问题的对偶问题

\[\begin{array}{cl} \min & c^Tx \\ \mathrm{s.t.} & Ax=b \\ & x>0 \end{array} \tag{6} \]

其中，\(c \in R^{n}, A \in R^{m \times n}, b \in R^{m}\).

写出对偶函数为：

\[\begin{align} d(\mu)&=\min_{x \geq 0} \left\{c^Tx+\mu^T(b-Ax)\right\} \\ &= \min_{x \geq 0} \left\{ (c-A^T\mu)^Tx+b^T\mu \right\} \\ &=\left\{\begin{array}{ll} b^T\mu, & \rm{if} \quad c-A^T\mu \geq0 \\ -\infty, & \rm{otherwise} \end{array}\right. \end{align} \]
所以对偶问题\(\max{d(\mu)}\)为：

\[\begin{array}{cl} \max & b^T\mu \\ \mathrm{s.t.} & A^T\mu\leq c \\ \end{array} \]

弱对偶定理

设 \(p^*\) 是原问题的最优值，\(d^*\) 是对偶问题的最优值，则\(d^* \leq p^*\)，即使原问题不是凸问题这个不等式也成立。这个是若对偶性

任取\(x \in S, (\lambda,\mu),\lambda \geq 0\)，必定有\(d(\lambda, \mu)\leq f(x)\)。即\(d(\lambda, \mu)\leq d^* \leq p^* \leq f(x)\)，因为\(d^*=\max(d(\lambda,\mu))\)、\(p^*=\min(f(x))\)

强对偶定理

如果 \(d^*=p^*\) 则称强对偶性成立，强对偶的一个判断标准是Slater定理，对于下面的优化问题

\[\begin{array}{ll} \min & f(x) \\ \text { s.t. } & g_{i}(x) \leq 0, \quad i=1, \cdots, m \\ & h_{i}(x)=0, \quad i=1, \cdots, l \\ & x \in X \end{array} \]

当满足以下条件时强对偶成立：

问题是凸问题：定义域集合 \(X\) 为非空凸集，\(f(x)\) 及 \(g_i(x),i=1,\cdots m\) 是凸函数，\(h_i(x),i=1,\cdots l\) 均为线性函数；
Slater条件：存在一点 \(x \in relint X\) (指定义域\(X\)的相对内部) 使得

\[\begin{array}{l} g_i(x)< 0, i=1,\cdots,m\\ h_i(x)=0,i=1,\cdots,l \end{array} \]

Slater定理是说，如果原问题是凸问题，而且至少存在一个绝对可行点「让所有不等式约束都不取等号的可行点」时，强对偶成立。

posted @ 2021-01-29 09:05 MayeZhang 阅读(567) 评论(0) 编辑收藏举报

刷新页面返回顶部

Loading

@张马也