机器学习笔记——拉格朗日乘子法和KKT条件

(原创文章，转载请注明地址:http://www.cnblogs.com/wangkundentisy/p/6762925.html )

一前置知识

拉格朗日乘子法是一种寻找多元函数在一组约束下的极值方法，通过引入拉格朗日乘子，可将有m个变量和n个约束条件的最优化问题转化为具有m+n个变量的无约束优化问题。在介绍拉格朗日乘子法之前，先简要的介绍一些前置知识,然后就拉格朗日乘子法谈一下自己的理解。

1.梯度

　　梯度是一个与方向导数有关的概念，它是一个向量。在二元函数的情形，设函数f(x,y)在平面区域D内具有一阶连续偏导，则对于每一点P(x0,y0)∈D，都可以定义出一个向量:f_x(x0,y0)i+f_y(x0,y0)j ,称该向量为函数f(x,y)在点P(x0,y0)

的梯度。并记作grad f(x0,y0) 或者∇f(x0,y0),即 grad f(x0,y0) = ∇f(x0,y0) = f_x(x0,y0)i+f_y(x0,y0)j=(f_x(x0,y0),f_y(x0,y0)) _。

　　再来看看梯度和方向导数的关系：如果函数f(x,y)在P(x0,y0)点可微，e_l= (cosα,cosβ)是与方向L同向的单位向量，则∂f/∂L|_(x0,y0) = f_x(x0,y0)cosα+f_y(x0,y0)cosβ = grad f(x0,y0).e_{l =}|grad f(x0,y0)|.cosθ ，其中θ表示的梯度与e_l的夹角。由此可知，当θ = 0时,e_l与梯度的方向相同时，此时方向导数最大，函数f(x,y)增长最快;当θ = π时,e_l与梯度的方向相反时，此时方向导数最小且为负,函数f(x,y)减小最快。

2.等高线(等值线)

　　通常来说，二元函数 z = f(x,y)在几何上表示一个曲面，这个曲面被平面 z = c(c为常数)所截得的曲线L的方程为:

这是一条空间曲线，这条曲线L在xOy平面上的投影是一条平面曲线L*，它在xOy平面直角坐标系中的方程为：f(x,y) = c .对于曲线L*上的一切点，已给函数的函数值都是c，所以我们称平面曲线L*为函数z = f(x,y)的等值线(等高线)。再来看看等高线的一些性质：

　　若f_x，f_y不同时为零，则等高线 f(x,y) = c上任一点P(x0,y0)处的一个单位法向量为:

这表明函数f(x,y)在一点(x0,y0)的梯度∇f(x0,y0)的方向就是等高线f(x,y) = c在这点的法向量的方向，而梯度的模|∇f(x0,y0)|就是沿这个法线方向的方向导数∂f/∂n,于是有：

二拉格朗日乘子法

1.等式约束

　　首先看一下什么是拉格朗日乘子法，已知一个问题：

要求f(x,y)在g(x,y)=c的前提下的最小值，我们可以构造一个函数L(λ,x,y) = f(x,y) + λ(g(x,y) - c),其中λ(λ不等于0)称为拉格朗日乘子，而函数L(λ,x)称为拉格朗日函数。通过拉格朗日函数对各个变量求导，令其为零，可以求得候选值集合，然后验证求得最优值。这就是拉格朗日乘子法。那么拉格朗日乘子法为什么是合理的？下面分别从几何和代数两方面解释下自己对其的一些见解：

(1)从几何的角度

先来看一幅图：

图中的虚线表示f(x,y)的等高线，如果满足g(x,y)=c这个约束，必然是等高线与g(x,y)=c这条曲线的交点；假设g(x)与等高线相交，交点就是同时满足等式约束条件和目标函数的可行域的值，但并不是最优值，因为相交意味着肯定还存在其它的等高线在该条等高线的内部或者外部，使得新的等高线与目标函数的交点的值更大或者更小，只有到等高线与目标函数的曲线相切的时候，才可能取得最优值。假设该切点为P(x0,y0),则f(x,y)在p点的梯度必然垂直于其在该点处的等值线(前面已经说过)，即梯度与该点出的法向量平行，又由于p点是曲线g(x,y)=c的切点，可以看做g(x,y)=c在p点处的梯度平行于它在该点的等值线的法向量，故f(x)在p点的梯度与g(x,y)=c在p点的梯度共线(因为他们在p点处的法向量是共线的)，即(f_x(x0,y0),f_y(x0,y0)) = λ*(g_x(x0,y0),g_y(x0,y0))。所以最优值必须满足：∇f(x,y) = λ* ∇(g(x)-c)，λ是常数且不等于0，表示左右两边平行。这个等式就是L(λ,x)对参数分别求偏导的结果,即:

　　也就是说满足∇f(x,y) = λ* ∇(g(x)-c)的点必然是式子min L(λ,x) = f(x,y) + λ(g(x,y) - c)的解，所以min L(λ,x) = f(x,y) + λ(g(x,y) - c)这个式子与原问题是等价的(可以先简单的认为g(x,y) - c = 0造成的)。

(2)从代数的角度

　　先来看一下z = f(x,y)在条件g(x,y) = c下取得极值的必要条件。

如果z=f(x,y)在(x0.y0)处取得所求的极值，那么有 g(x0,y0) = c,假定在(x0,y0)的某一领域内f(x,y)与g(x,y) = c均有一阶段连续偏导(对于凸函数很显然是成立的)并且g_y(x0,y0)≠0.由隐函数的存在定理可知方程g(x,y)=c能够确定一个连续且具有连续偏导的函数y = μ(x),将其带入z= f(x,y)中可以得到一个变量x的函数：z = f[x,μ(x)].

　　于是z=f(x,y)在x=x0处取得极值，相当于z = f[x,μ(x)]在x=x0处取得极值，又由一元可导函数取得极值的必要条件可知：

而又由y = μ(x)用隐函数求导公式，有

将以上两式结合可得，

上式与g(x0,y0)=c 就是函数z=f(x,y)在g(x,y)=c的条件下取得极值的必要条件。如果令：

上述的必要条件就变为

同从几何角度推出的结论一致。

　　综上所述，对于问题

(x可以为一个矢量，也可以为一个标量)

等价于求　

对于拉格朗日乘子法求出的候选值，需要注意验证；如果目标函数f(x)是凸函数的话则可以保证得到的解一定是最优解。

三 KKT条件

1.关于不等式约束　　　　　　　　　　　　　

　　上述问题中讲述的都是约束条件为等式的情况，对于约束条件为不等式的情况，通常引入KKT条件(在不等式约束下，函数求极值的必要条件)来解决，具体如下：

对于问题

我们也引入拉格朗日函数

其中μ_j≥0。

再看一个关于x的函数：

而实际上F(x)可以看做是f(x)的另一种表达形式；由于h_i(x)=0，所以拉格朗日函数中的第二项为0；又由于g_j(x) ≤ 0且μ_j ≥ 0,所以μ_jg_j(X) ≤ 0，所以只有μ_jg_j(X) = 0时L取到最大值；因此F(x)在满足约束条件时就是f(x)。由此，目标函数可以表述为如下的形式：