关于拉格朗日乘子法与KKT条件

拉格朗日乘子法无疑是最优化理论中最重要的一个方法。但是现在网上并没有很好的完整介绍整个方法的文章。我这里尝试详细介绍一下这方面的有关问题，插入自己的一些理解，希望能够对大家有帮助。本文分为两个部分：第一部分是数学上的定义以及公式上的推导；第二部分主要是一些常用方法的直观解释。初学者可以先看第二部分，但是第二部分会用到第一部分中的一些结论。请读者自行选择。

拉格朗日乘子法的数学基础

共轭函数

对于一个函数

f ⋆ (y) = sup x \in dom f (y T x - f (x))

按照上面的定义，这个函数值是有可能取到

下面是一些常用函数的对偶函数：

线性函数
负对数
指数函数
负熵函数
倒数函数
任意范数
范数平方
二次型

这个函数的几何意义可以通过下图解释：

随着

很容易看出不管原函数的凹凸性如何，共轭函数一定是凸函数（可以由凸函数性质看出，这里不细说）。

拉格朗日函数

对于一个标准形式的优化问题：

minimize

拉格朗日函数就是将目标函数和约束进行有权重的求和：

L (x, λ, ν) = f 0 (x) + \sum i = 1 m λ i f i (x) + \sum

拉格朗日对偶函数

拉格朗日对偶函数，或者直接叫对偶函数，被定义为拉格朗日函数在

g (λ, ν) = inf x \in D (f 0 (x) + \sum i = 1 m λ i f i (

目标函数最优值的下界

假设原始问题目标函数最优值是

\sum i = 1 m λ i f i (x ~) + \sum i = 1 p ν i h i (x ~) \leq 0

g (λ, ν) = inf x \in D L (x, λ, ν) \leq L (x ~,

g (λ, ν) \leq p ⋆

下面讨论里有人问为什么要求

拉格朗日对偶函数与共轭函数的联系

线性约束的问题的拉格朗日对偶函数可以通过对共轭函数来表达出来。考虑如下线性约束问题：

minimize

g (λ, ν) = inf x (f 0 (x) + λ T (A x -

dom g = {(λ, ν) ∣ - A T λ - C T ν \in dom f * 0}

拉格朗日对偶问题

由于我们知道

maximize

由于我们知道拉格朗日对偶函数

如何显式的表述拉格朗日对偶问题

上面形式的拉格朗日对偶问题很难在实际中求解。通常情况下为了求解，我们需要一些更明确的条件来把拉格朗日对偶问题表述出来。一般我们如下几种方法。

由定义消去下确界

如果拉格朗日函数能够简单的求得下确界。我们就可以直接消去原始问题的变量，得到明确的对偶问题。

例如对于：

minimize

\nabla x L (x, ν) = 2 x + A T ν = 0

g (ν) = L (- (1 / 2) A T ν, ν) = - (1 / 4) ν T A A T ν - b T ν

maximize

隐式求解约束

有时候拉格朗日对偶函数可以取到无穷。为了得到有意义的解，我们可以求出对偶可行域，即让

例如对于标准线性规划问题：

minimize subject to c T x A x = b x ⪰ 0

L (x, ν) = c T x - \sum i = 1 m λ i x i + ν T (A x - b) = - b T ν + (A T

g (λ, ν) = {- b T ν - \infty A T ν + c - λ = 0 otherwise.

maximize subject to - b T ν A T ν + c - λ = 0 λ ⪰ 0

maximize subject to - b T ν A T ν + c ⪰ 0

共轭函数法

由于线性约束的问题和共轭函数有密切的关系，很多时候我们可以利用共轭函数来求解对偶问题的约束。

例如最大化熵问题：

minimize subject to f 0 (x) = \sum i = 1 n x i log x i

f * 0 (y) = \sum i = 1 n e y i - 1

g (λ, ν) = - b T λ - ν - \sum i = 1 n e - a T i λ - ν - 1 = - b T λ

所以，这个问题也转化为了一个无约束的优化问题：

maximize

弱对偶

如果我们把拉格朗日对偶问题的最优值记为

d ⋆ \leq p ⋆

弱对偶关系即使在

我们把原始问题和对偶问题最优值之间的差值

强对偶

如果原始问题和对偶问题的最优值相等，即：

d ⋆ = p ⋆

通常情况下强对偶关系并不成立。但是如果原始问题是凸的，即对于这样的形式：

minimize

Slater条件：存在一点 $f i (x) < 0,$

可以证明，如果原问题是凸的，并且Slater条件成立的情况下，强对偶条件一定成立。

如果有一些不等约束是仿射的，Slater条件还可以被弱化。假设前

Refined Slater 条件：存在一点 $f i (x) \leq 0,$

即仿射的不等约束不必取严格小于。

此外，满足 Slater 条件（或 Refined Slater 条件）不仅意味着（凸优化问题）强对偶性的成立，而且也表示当

原始问题与对偶问题的关系

原始问题和对偶问题都是可行的，则弱对偶关系成立，强对偶关系不一定成立。
原始问题和对偶问题都不可行，则弱对偶关系依然成立，但强对偶关系不成立。
关于原始问题和对偶问题之间的解的关系，可以整理如下表格：

对偶问题\原始问题	可行	无下界	不可行
可行	√	×	×
无上界	×	×	√
不可行	×	√	√

最优条件

现在假设我们现在已经知道了原始问题和对偶问题的最优值相等（强对偶）。

f 0 (x *) = = \leq \leq g (λ *, ν *) inf x (f 0 (x

这里有两个不等号，第三行取到等号的必要条件是：

\nabla f 0 (x *) + \sum i = 1 m λ * i \nabla f i (x *) + \sum i = 1 p ν * i \nabla h

而第四行取到等号的条件是：

\sum i = 1 m λ * i f i (x *) = 0

互补松弛条件

上面得到：

\sum i = 1 m λ * i f i (x *) = 0

λ * i f i (x *) = 0,

如果拉格朗日不等约束乘子
如果某不等约束严格取不等号，即

互补松弛条件通常代表着一定物理意义。其中的乘子常常是一个明确的状态指示器。代表着约束的有效与否。

KKT条件

一般问题的KKT条件

将上面讨论的条件结合起来，我们就得到了著名的KKT条件：

f i (x *) \leq h i (x *) = λ * i \geq λ * i f i (x *) =

容易看出，由于最后一个条件的限制，对于任意优化问题，只要

凸问题的KKT条件

如果原始问题是凸的，则KKT条件也是充分的。这是因为KKT的最后一个条件在对拉格朗日函数取下确界的时候成为了充要条件。这时候我们有如下结论：

如果一个凸优化问题有可微的目标函数和约束，并且满足Slater条件，则KKT条件是取得最优的充要条件：Slater条件保证了最优对偶间隙为零并且最优点可以取到；在此基础上

KKT条件的用途

KKT条件在优化问题中有重要意义。它可以用于如下方面：

有时候可以直接从KKT条件里得到最优的解析解。
等式约束的优化问题，可以通过KKT条件转化为无约束方程求零点问题。
有不等式约束的优化问题，可以使用KKT条件来简化，帮助求解。

拉格朗日乘数法的形象化解读

上面的论述都是拉格朗日乘子法的数学基础。但是上面的公式无法解释一个问题：为何要如此构造拉格朗日函数？其背后的意义是什么？这一部分就试图来回答这个问题。

等式约束的拉格朗日乘子法

考虑这个决策变量是二维平面内点

minimize subject to f (x, y) g (x, y) = c

- \nabla f (x, y) = - ν \nabla g (x, y)

因此，我们通过观察可以得到优化取到最小值的条件：

g (x, y) \nabla f (x, y) - ν \nabla g (x, y) = c = 0

g (x, y) - c \nabla f (x, y) + ν \nabla g (x, y) = 0 = 0

仍然需要提醒的是，这些条件对于一般问题只是取到最优的必要条件。但是对于大多数凸问题来说，这个条件也是充分条件。具体情况请看上面公式推导。

含有不等约束的情况

上面仅仅考虑了等式约束的情况。那么含有不等式的约束情况下，

我们还是考虑一个和上面问题类似的问题：

minimize subject to f (x, y) g 1 (x, y) \leq c, g 2

大家立刻可以从图中发现，这个问题的最优解和之前的等式约束情况下没有任何区别。也就是依然满足条件：

g 1 (x, y) \nabla f (x, y) - ν \nabla g 1 (x, y) = c = 0

g 1 (x, y) - c d - g 2 (x, y) λ 1 λ 2 λ 1 (g 1 (x,

这里的核心问题是互补松弛条件。我们上面已经说过了由于互补松弛条件的存在，

g 1 (x, y) - c = 0

λ 1 > 0, λ 2 = 0

g 1 (x, y) - c \nabla f (x, y) + λ 1 \nabla g 1 (x, y) = 0 = 0

由上面的问题可以看出来，不等约束的拉格朗日乘子

参考文献

Stephen Boyd, Lieven Vandenberghe. Convex Optimization.
维基百科. 拉格朗日乘数.

posted @ 2015-08-11 18:57 菜鸡一枚阅读(5139) 评论(0) 编辑收藏举报

刷新页面返回顶部

菜鸡一枚

关于拉格朗日乘子法与KKT条件