深入理解SVM,软间隔与对偶问题

今天是机器学习专题的第33篇文章,我们继续来聊聊SVM模型。

在上一篇文章当中我们推到了SVM模型在线性可分的问题中的公式推导,我们最后得到的结论是一个带有不等式的二次项:

{minω,b12||ω||2s.t.yi(ωTx+b)1,i=1,2,3,m

想要了解具体推导过程的同学,可以参考我的上一篇文章:

机器学习 | 深入SVM原理及模型推导(一)

其实上一篇的文章当中遗留了一个问题,就是我们希望得到||ω||最小,为什么不直接求||ω||最小,而非要求||ω||2最小呢?原因就在它的解法上,因为我们要将它转化成一个凸二次规划问题(Quadratic Programming)。QP问题也是计算科学当中一个很重要的领域,也是比较困难的领域,因为需要对计算机以及数学都有很深的造诣。

我个人感觉和实际的机器学习以及工程结合不是非常紧密,目前主要在SVM模型的原理推导上用到,所以我们可以只需要把SVM用到的公式原理理解就可以了。

求解过程

QP问题其实有专门的QP计算包可以求它的极值,我也曾经用过,但这并不是唯一的解法,并且这种解法有一个很大的缺点在于没办法套用核函数。所以我们一般不使用QP规划的方法来求解。

我们观察一下原式,很自然的会有一种感觉,就是那些不等式很烦人。我们希望消除掉这些不等式,也有办法,就是通过使用拉格朗日乘子法来将有约束的优化目标转化成无约束的优化函数。

我们来看下拉格朗日乘子法的使用过程,给定一个不等式约束问题:

{minxf(x)s.t.gi(x)0,i=1,2,,khj(x)=0,j=1,2,,m

对于这个看起来很复杂的方程组,我们引入一个广义朗格朗日函数,将它改写成这样:

L(x,α,β)=f(x)+i=1kαigi(x)+j=1mβjhj(x),αi0

这个式子相比于上面的方程组看起来要简单一些,但是它有什么用呢?我们简单分析一下,会发现Lf(x)。因为αi0,并且gi(x)0。所以两者相加,Lf(x),当αi=0时L可以取到最大值,这时L=f(x)。所以我们要求的是maxL(x,α,β)

又由于我们要求的目标是f(x)的极小值,我们最终的目标是minxmaxαi0L(x,α,β)

对偶问题

接下来我们就要讨论著名的对偶问题了,所谓的对偶问题,实质上是将一个带有两个不等式的方程的不等式进行调换顺序。把minmaxL转变成maxminL,但问题是不等号的位置显然是有讲究的,不可以随意调换顺序,所以我们需要证明这样调换成立的。

为了方便起见,我们把原问题写成θP(x)=minxmaxα,βL(x,α,β),我们再定义一个关于αβ有关的方程:θD(α,β)=minxL(x,α,β)。这个方程等式的右边是拉格朗日函数的最小化,因为x确定了之后,方程的结果就只和α以及β相关,所以它是一个关于αβ的函数。

我们对这个函数求极大值:

maxαi0θD(α,β)=maxαi0minxL(x,α,β)

不知道这个式子看起来是不是觉得有些眼熟,因为它和我们刚才推导得出来的原问题非常相似,只是不等号的位置不同。我们为什么要列出这两个式子呢?当然不是为了好玩的,主要是为了想要得到这样一条不等式:

θD(α,β)=maxαi0minxL(x,α,β)minxmaxαi0L(x,α,β)=θP(x)

我们用拉格朗日方程做过度,就可以很容易证明这个式子:

minxL(x,α,β)L(x,α,β)maxαi0L(x,α,β)

我们想要用对偶问题代替原问题,就需要上面这个不等号取等。对于拉格朗日方程取等的条件,数学家们已经有了严谨的证明,只需要满足Karush-Kuhn-Tucker条件(简称KTT条件)。KTT的条件推导也是一个挺复杂的过程,我们不做深入研究, 只需要知道它的存在就可以了。

KTT条件有这么几条,看起来多其实并不复杂。

xL(x,α,β)=0

αL(x,α,β)=0

βL(x,α,β)=0

αigi(x)=0,i=1,2,3m

gi(x)=0,i=1,2,3m

αi0,i=1,2,3m

hi(x)=0,j=1,2,3l

我们对照KTT条件,求解θP(x)的极小值,这个就是高中数学的部分了。我们首先对原式进行化简:

L(x,ω,b)=12||ω||2+i=1mαi(1yi(ωTxi+b))=12||ω||2+i=1m(αiαiyiωTxiαiyib)=12||ω||2+i=1mαii=1mαiyiωTxii=1mαiyib

再对ωb进行求导:

Lω=122ω+0i=1mαiyixi0=0ω=i=1mαiyixi

Lb=0+00i=1mαiyi=0i=1mαiyi=0

我们通过求导得出了ωα之间的关系,也就是说只要我们确定了α也就确定了ω,另外我们可以神奇地发现上面的式子当中已经没有了b,说明b已经被我们消去了。我们把上面求导得到的取极值时的ωb代入原式,消去ωb,可以得到:

minω,bL(x,ω,b)=12ωTω+i=1mαii=1mαiyiωTxii=1mαiyib=12ωTi=1mαiyixi+i=1mαibi=1mαiyi=12ωTi=1mαiyixi+i=1mαi=i=1mαi12i=1mj=1mαiαjyiyjxiTxj

我们观察一下是这个式子,会发现x和y都是固定的值由样本确定,唯一的变量就只有α了。我们要求的是上式的极大值,唯一的变量是α,求出了α就可以推导得到对应的ω和b。

那么这个α怎么求呢?相关的内容我们放到下一篇文章。

今天的文章到这里就结束了,如果喜欢本文的话,请来一波素质三连,给我一点支持吧(关注、转发、点赞)。

原文链接,求个关注

posted @   Coder梁  阅读(919)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示