在上一节我们得到了转换后的优化问题:
minw,b12||w||2s.t.^γ(i)≥^γ=1
To be more general, 它具有这样的形式:
minwf(w)s.t.gi(w)≤0hj(w)=0
这是一类带约束,且约束里面有不等式的最优化问题。(等式约束的问题可以通过拉格朗日乘子法来解决)
为了解决这个问题,定义广义拉格朗日函数
L(w,α,β)=f(w)+k∑i=1αigi(w)+l∑j=1βjhj(w)αi≥0
定义:
θP(w)=maxα,βL(w,α,β)
可以发现,在那些满足约束条件的 w 处,θP(w)=f(w), 在那些不满足的地方,θP(w)=+inf
这是因为在那些不满足的点处,可以取一些 αi 或者 βj 使得后两项中的某一项趋向无穷。
因此,原问题与如下问题同解:
minwθP(w)
记minθP(w)=p∗, 为原问题的解的值。
考虑对偶的形式:
θD(α,β)=minwL(w,α,β)
以及对偶问题:
maxα,βθD(α,β)
记 maxθD(α,β)=d∗, 为对偶问题的值。
而如下不等式显然成立:
d∗≤p∗
推导:
θD(α,β)≤L≤θP(w)maxθD(α,β)≤minθP(w)
因此,若 w∗,α∗,β∗ 同时是对偶问题和原问题的解,且 d∗=p∗, 那么它们分别是原问题和对偶问题的最优解。
这告诉我们,在有些条件下,原问题的解与对偶问题的解相同,这使得我们可以将求解原问题转化为求解对偶问题,因为对偶问题有时候比较容易求解。
下面给出这样的条件:
- 假设 f(w),gi(w) 是凸函数,hj(w) 是仿射函数,不等式约束 gi(w) 是严格可行的,则存在 w∗,α∗,β∗ ,使得 w∗ 是原问题的解,α∗,β∗ 是对偶问题的解,并且
p∗=d∗=L(w∗,α∗,β∗)
- 假设 f(w),gi(w) 是凸函数,hj(w) 是仿射函数,不等式约束 gi(w) 是严格可行的,则 w∗,α∗,β∗ 分别是原问题和对偶问题的解的充要条件是满足 KKT 条件。
∇wL=0α∗igi(w)=0gi(w)≤0α∗i≥0hj(w)=0
其中第二条称为 KKT 的对偶互补条件,由此条件可知,若 α∗i>0, 则 gi(w)=0
有了上面的基础,下面来看 SVM 的对偶学习算法,把上面的定理用于 SVM 的最优化目标,写出广义拉格朗日函数:
L=12||w||2+m∑i=1αi(−y(i)(wTx(i)+b)+1)
根据拉格朗日对偶性,原问题等价于求解如下问题:
maxαminw,bL(w,b,α)
先求解极小问题:
∇wL=w−m∑i=1αiy(i)x(i)=0∇bL=−m∑i=1αiy(i)=0
带入拉格朗日函数得
L=−12m∑i=1m∑j=1αiαjy(i)y(j)(x(i),x(j))+m∑i=1αi
接下来求它对 α 的极大,即
maxα−12m∑i=1m∑j=1αiαjy(i)y(j)(x(i),x(j))+m∑i=1αis.t.m∑i=1αiy(i)=0αi≥0
假设最后解得 α=[α1,...,αm]T,
w∗=m∑i=1α∗iy(i)x(i)b∗=yj−m∑i=1α∗iy(i)(x(i),x(j))αj>0
分类决策函数即:
f(x)=sign(m∑i=1α∗iy(i)(x(i),x)+b∗)
注意到在上面我们最后都写成内积的表达方式,这为我们使用核方法提供了便利。
在之前的讨论我们都假设了数据集是线性可分的,有时候可能在当前维度下决策边界是一个比较复杂的 "曲线", 这时我们如果将输入 x 通过线性映射 ϕ, 映射到高维空间,就可能化为在高维空间线性可分的情况。然而在高维空间计算向量的内积是 computationally expensive 的,如果我们能有一个函数 K(x,z)=ϕ(x)Tϕ(z), 能够比较快的算出向量在高维空间的内积,那么将会十分方便。应用核方法只需要先将算法表示为内积的形式,再用 K(x,z) 替换即可。常用的核包括多项式核和高斯核。
到现在为止,我们可以用一句话概括一下 SVM : 最大间隔分类器 + kernel
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义