lecture 7 : More about SVM

在上一节我们得到了转换后的优化问题:

minw,b12||w||2s.t.γ^(i)γ^=1

To be more general, 它具有这样的形式:

minwf(w)s.t.gi(w)0hj(w)=0

这是一类带约束,且约束里面有不等式的最优化问题。(等式约束的问题可以通过拉格朗日乘子法来解决)

为了解决这个问题,定义广义拉格朗日函数

L(w,α,β)=f(w)+i=1kαigi(w)+j=1lβjhj(w)αi0

定义:

θP(w)=maxα,βL(w,α,β)

可以发现,在那些满足约束条件的 w 处,θP(w)=f(w), 在那些不满足的地方,θP(w)=+inf

这是因为在那些不满足的点处,可以取一些 αi 或者 βj 使得后两项中的某一项趋向无穷。

因此,原问题与如下问题同解:

minwθP(w)

minθP(w)=p, 为原问题的解的值。

考虑对偶的形式:

θD(α,β)=minwL(w,α,β)

以及对偶问题:

maxα,βθD(α,β)

maxθD(α,β)=d, 为对偶问题的值。

而如下不等式显然成立:

dp

推导:

θD(α,β)LθP(w)maxθD(α,β)minθP(w)

因此,若 w,α,β 同时是对偶问题和原问题的解,且 d=p, 那么它们分别是原问题和对偶问题的最优解。

这告诉我们,在有些条件下,原问题的解与对偶问题的解相同,这使得我们可以将求解原问题转化为求解对偶问题,因为对偶问题有时候比较容易求解。

下面给出这样的条件:

  • 假设 f(w),gi(w) 是凸函数,hj(w) 是仿射函数,不等式约束 gi(w) 是严格可行的,则存在 wα,β ,使得 w 是原问题的解,α,β 是对偶问题的解,并且

p=d=L(w,α,β)

  • 假设 f(w),gi(w) 是凸函数,hj(w) 是仿射函数,不等式约束 gi(w) 是严格可行的,则 w,α,β 分别是原问题和对偶问题的解的充要条件是满足 KKT 条件。

wL=0αigi(w)=0gi(w)0αi0hj(w)=0

其中第二条称为 KKT 的对偶互补条件,由此条件可知,若 αi>0, 则 gi(w)=0

有了上面的基础,下面来看 SVM 的对偶学习算法,把上面的定理用于 SVM 的最优化目标,写出广义拉格朗日函数:

L=12||w||2+i=1mαi(y(i)(wTx(i)+b)+1)

根据拉格朗日对偶性,原问题等价于求解如下问题:

maxαminw,bL(w,b,α)

先求解极小问题:

wL=wi=1mαiy(i)x(i)=0bL=i=1mαiy(i)=0

带入拉格朗日函数得

L=12i=1mj=1mαiαjy(i)y(j)(x(i),x(j))+i=1mαi

接下来求它对 α 的极大,即

maxα12i=1mj=1mαiαjy(i)y(j)(x(i),x(j))+i=1mαis.t.i=1mαiy(i)=0αi0

假设最后解得 α=[α1,...,αm]T,

w=i=1mαiy(i)x(i)b=yji=1mαiy(i)(x(i),x(j))αj>0

分类决策函数即:

f(x)=sign(i=1mαiy(i)(x(i),x)+b)

注意到在上面我们最后都写成内积的表达方式,这为我们使用核方法提供了便利。

在之前的讨论我们都假设了数据集是线性可分的,有时候可能在当前维度下决策边界是一个比较复杂的 "曲线", 这时我们如果将输入 x 通过线性映射 ϕ, 映射到高维空间,就可能化为在高维空间线性可分的情况。然而在高维空间计算向量的内积是 computationally expensive 的,如果我们能有一个函数 K(x,z)=ϕ(x)Tϕ(z), 能够比较快的算出向量在高维空间的内积,那么将会十分方便。应用核方法只需要先将算法表示为内积的形式,再用 K(x,z) 替换即可。常用的核包括多项式核和高斯核。

到现在为止,我们可以用一句话概括一下 SVM : 最大间隔分类器 + kernel

posted @   今天AC了吗  阅读(20)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
点击右上角即可分享
微信分享提示