机器学习--SVM篇
前言:
之前写过一篇关于SVM的博客,感觉适合入门用,这篇是用来准备面试的~
1.支持向量
1.1 线性可分
首先我们先来了解下什么是线性可分,如下图所示:
在二维空间上,两类点被一条直线完全分开叫做线性可分。
严格的数学定义是:$D_{0}$ 和 $D_{1}$是$n$维欧氏空间中的两个点集。如果存在$n$维向量$w$和实数$b$,使得所有属于$D_{0}$的点$x_{i}$都有$wx_{i} + b > 0$,而对于所有属于$D_{1}$的点$x_{j}$则有$wx_{j} + b < 0$,则我们称$D_{0}$和$D_{1}$线性可分。
1.2 最大间隔超平面
从二维扩展到多维空间中,将$D_{0}$和$D_{1}$完全正确的划分开的$wx + b = 0$就成了一个超平面。为了使这个超平面更具鲁棒性,我们会去找最佳超平面,以最大间隔把两类样本分开的超平面,也称之为最大间隔超平面。简而言之有以下两个特点:
- 两类样本分别分割在超平面的两侧;
- 两侧距离超平面最近的样本点到超平面的距离被最大化。
1.3 支持向量
样本中距离超平面最近的一些点,这些点叫做支持向量。
1.4 SVM最优化问题
SVM的目的在于找到一个超平面使得各类样本到超平面的距离最远。任意超平面可以用以下线性方程来描述:
$$w^{T}x +b = 0$$
二维空间点$(x,y)$到直线$Ax + By + C = 0$的距离公式为:
$$\frac{|Ax+By+C|}{\sqrt{A^{2}+B^{2}}}$$
扩展到$n$维空间之后,点$x = (x_{1},x_{2},... x_{n})$到直线$w^{T}x +b = 0$的距离为:
$$\frac{|w^{T}x + b|}{||w||}$$
其中$||w|| = \sqrt{w_{1}^{2}+... w_{2}^{2}}$。
如下图所示,根据支持向量的定义我们知道,支持向量到超平面的距离为$d$,其他点到超平面的距离大于$d$。
于是我们有这样一个公式:
稍作转化可以得到:
$||w||d$是正数,我们暂且令它为 1(之所以令它等于 1,是为了方便推导和优化,且这样做对目标函数的优化没有影响),故:
将两个方程合并,我们可以简写为:
至此我们就可以得到最大间隔超平面的上下两个超平面:
每个支持向量到超平面的距离可以写为:
由上述$y(w^{T}x + b) > 1 > 0$可以得到$y(w^{T}x + b) = |w^{T}x + b|$,所以我们得到:
最大化这个距离:
这里乘上2也是为了后面的推导,对目标函数的优化没有影响。对于支持向量而言,$y(w^{T}x + b) = 1$,所以我们得到:
这里再做一个转换:
为了方便计算(取出二范数计算里面的根号),我们有:
所以得到的最优化问题是:
2. 对偶问题
2.1 拉格朗日乘法
2.1.1 等式约束优化问题
本科高等数学学的拉格朗日程数法是等式约束优化问题:
我们令$L(x,\lambda) = f(x) + \sum_{k=1}^{l} \lambda_{k}h_{k}(x)$,函数$L(x,y)$称为Lagrange函数,参数$\lambda$称为Lagrange乘子,注意这里没有非负要求。
利用约束必要条件找到可能的极值点:
具体是否为极值点需根据问题本身的情况检验,这个方程组称为等式约束的极值必要条件。等式约束下的Lagrange乘子法引入了$l$个Lagrange乘子,我们将$x_{i}$与$\lambda_{k}$一视同仁,把$\lambda_{k}$也看作优化变量,共有$(n + l)$个优化变量。
2.1.2 不等式约束优化变量
而我们现在面对的是不等式优化问题,针对这种情况其主要思想是将不等式约束条件转变为等式约束条件,引入松弛变量,将松弛变量也是为优化变量。
以下述约束问题为例:
我们引入松弛变量$a_{i}^{2}$得到$h_{i}(w,a_{i}) = g_{i}(w) + a_{i}^{2} = 0$。这里加平方主要为了不再引入新的约束条件,如果只引入 那我们必须要保证 才能保证 ,这不符合我们的意愿。
由此我们将不等式约束转化为了等式约束,并得到 Lagrange 函数:
由等式约束优化问题极值的必要条件对其求解,联立方程:
针对 我们有两种情况:
情形一:
由于 ,因此约束条件 不起作用,且
情形二:
此时 且 ,可以理解为约束条件 起作用了,且
综合可得: ,且在约束条件起作用时 ;约束不起作用时 。 (这里也是为什么只有一部分点起到分隔作用的原由)
由此方程组转换为:
以上便是不等式约束优化优化问题的 KKT(Karush-Kuhn-Tucker) 条件, 称为 KKT 乘子。
这个式子告诉了我们什么事情呢?直观来讲就是,支持向量 $g_{i}(w) = 0$ ,所以 $\lambda_{i} > 0$即可。而其他向量$g_{i}(w) < 0,\lambda_{i} = 0$。
我们原本问题时要求:$min \frac{1}{2} ||w||^{2}$,既求$minL(w,\lambda,a)$
由于$\sum_{i = 1}^{n}\lambda_{i}a{i}^{2} \geq 0$,故我们将问题转换为:$minL(w,\lambda)$:
假设找到了最佳参数是的目标函数取得了最小值 p。既$\frac{1}{2}||w||^{2} = p$。而根据$\lambda_{i} \geq 0$,可知$\sum_{i = 1}^{n} \lambda_{i} g_{i}(w) \leq 0$,因此$L(w,\lambda) \leq p$,为了找到最优的参数$\lambda$,使得$L(w,\lambda)$接近p,故问题转化求解
$max_{\lambda}L(w,\lambda)$。故我们的优化问题转换为:
出了上面的理解方式,我们还可以有另一种理解方式:由于$lambda_{i} \neq 0$,
所以$min(\infty,\frac{1}{2}||w||^{2})$,所以转化后的式子和原来的式子也是一样的。
2.2 强对偶性
对偶问题其实就是将:
变成了:
假设有个函数 我们有:
也就是说,最大的里面挑出来的最小的也要比最小的里面挑出来的最大的要大。这关系实际上就是弱对偶关系,而强对偶关系是当等号成立时,即:
如果 是凸优化问题,强对偶性成立。而我们之前求的 KKT 条件是强对偶性的充要条件。
3. SVM 优化
我们已知 SVM 优化的主问题是:
那么求解线性可分的 SVM 的步骤为:
步骤 1:
构造拉格朗日函数:
步骤 2:
利用强对偶性转化:
现对参数 $w$ 和 $b$ 求偏导数:
得到:
我们将这个结果带回到函数中可得:
也就是说:
步骤 3:
由步骤 2 得:
我们可以看出来这是一个二次规划问题,问题规模正比于训练样本数,我们常用 SMO(Sequential Minimal Optimization) 算法求解。SMO(Sequential Minimal Optimization),序列最小优化算法,其核心思想非常简单:每次只优化一个参数,其他参数先固定住,仅求当前这个优化参数的极值。我们来看一下 SMO 算法在 SVM 中的应用。我们刚说了 SMO 算法每次只优化一个参数,但我们的优化目标有约束条件:$\sum_{i=1}{n}\lambda_{i}y_{i}$ ,没法一次只变动一个参数。所以我们选择了一次选择两个参数。具体步骤为:
- 选择两个需要更新的参数 $\lambda_{i}$和 $\lambda_{j}$ ,固定其他参数。这样约束就变成了:
其中$c = - \sum_{k \neq i,j} \lambda_{k}y_{k}$ ,由此可以得出$\lambda_{j} = \frac{c-\lambda_{i}y_{i}}{y_{j}}$ ,也就是说我们可以用 $\lambda_{i}$ 的表达式代替 $\lambda_{j}$ 。这样就相当于把目标问题转化成了仅有一个约束条件的最优化问题,仅有的约束是 $\lambda_{i} \geq 0$。
2. 对于仅有一个约束条件的最优化问题,我们完全可以在 $\lambda_{i}$上对优化目标求偏导,令导数为零,从而求出变量值 $\lambda_{i_{new}}$,然后根据 $\lambda_{i_{new}}$求出 $\lambda_{j_{new}}$ 。
3. 多次迭代直至收敛。
通过 SMO 求得最优解 。
步骤 4 :
我们求偏导数时得到:
由上式可求得 w。
我们知道所有 $\lambda_{i} \geq 0$对应的点都是支持向量,我们可以随便找个支持向量,然后带入:$y_{s}(wx_{s} + b) = 1$ ,求出 $b$ 即可,两边同乘$y_{s}$ ,得$y_{s}^{2}(wx_{s} + b) = y_{s}$
因为$y_{s}^{2} = 1$ ,所以:$b = y_{s} - wx_{s}$ ,为了更具鲁棒性,我们可以求得支持向量的均值:
步骤 5:
$w$ 和 $b$ 都求出来了,我们就能构造出最大分割超平面: ,分类决策函数: .其中 为阶跃函数:
将新样本点导入到决策函数中既可得到样本的分类。
4. 软间隔
4.1 解决问题
在实际应用中,完全线性可分的样本是很少的,如果遇到了不能够完全线性可分的样本,我们应该怎么办?比如下面这个:
于是我们就有了软间隔,相比于硬间隔的苛刻条件,我们允许个别样本点出现在间隔带里面,比如:
我们允许部分样本点不满足约束条件:
为了度量这个间隔软到何种程度,我们为每个样本引入一个松弛变量 ,令 ,且 。对应如下图所示:
4.2 优化目标及求解
增加软间隔后我们的优化目标变成了:
其中 $C$ 是一个大于 0 的常数,可以理解为错误样本的惩罚程度,若 C 为无穷大, 必然无穷小,如此一来线性 SVM 就又变成了线性可分 SVM;当 C 为有限值的时候,才会允许部分样本不遵循约束条件。
接下来我们将针对新的优化目标求解最优化问题:
步骤 1:
构造拉格朗日函数:
其中 和 是拉格朗日乘子,w、b 和 是主问题参数。
根据强对偶性,将对偶问题转换为:
步骤 2:
分别对主问题参数$w、b$ 和 求偏导数,并令偏导数为 0,得出如下关系:
将这些关系带入拉格朗日函数中,得到:
最小化结果只有 而没有 ,所以现在只需要最大化 就好:
我们可以看到这个和硬间隔的一样,只是多了个约束条件。
然后我们利用 SMO 算法求解得到拉格朗日乘子 。
步骤 3 :
然后我们通过上面两个式子求出 w 和 b,最终求得超平面 ,
这边要注意一个问题,在间隔内的那部分样本点是不是支持向量?
我们可以由求参数 w 的那个式子可看出,只要 的点都能够影响我们的超平面,因此都是支持向量。
5. 核函数
5.1 线性不可分
我们刚刚讨论的硬间隔和软间隔都是在说样本的完全线性可分或者大部分样本点的线性可分。但我们可能会碰到的一种情况是样本点不是线性可分的,比如:
这种情况的解决方法就是:将二维线性不可分样本映射到高维空间中,让样本点在高维空间线性可分,比如:
对于在有限维度向量空间中线性不可分的样本,我们将其映射到更高维度的向量空间里,再通过间隔最大化的方式,学习得到支持向量机,就是非线性 SVM。我们用 x 表示原来的样本点,用 表示 x 映射到特征新的特征空间后到新向量。那么分割超平面可以表示为: 。对于非线性 SVM 的对偶问题就变成了:
可以看到与线性 SVM 唯一的不同就是:之前的 变成了 。
5.2 核函数的作用
我们不禁有个疑问:只是做个内积运算,为什么要有核函数的呢?这是因为低维空间映射到高维空间后维度可能会很大,如果将全部样本的点乘全部计算好,这样的计算量太大了。
但如果我们有这样的一核函数 , 与 在特征空间的内积等于它们在原始样本空间中通过函数 计算的结果,我们就不需要计算高维甚至无穷维空间的内积了。
举个例子:假设我们有一个多项式核函数:
带进样本点的后:
而它的展开项是:
如果没有核函数,我们则需要把向量映射成:
然后在进行内积计算,才能与多项式核函数达到相同的效果。可见核函数的引入一方面减少了我们计算量,另一方面也减少了我们存储数据的内存使用量。
5.3 常见核函数
我们常用核函数有:
线性核函数
多项式核函数
高斯核函数
这三个常用的核函数中只有高斯核函数是需要调参的。
6. 优缺点
6.1 优点
- 有严格的数学理论支持,可解释性强,不依靠统计方法,从而简化了通常的分类和回归问题;
- 能找出对任务至关重要的关键样本(即:支持向量);
- 采用核技巧之后,可以处理非线性分类/回归任务;
- 最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。
6.2 缺点
- 训练时间长。当采用 SMO 算法时,由于每次都需要挑选一对参数,因此时间复杂度为 ,其中 N 为训练样本的数量;
- 当采用核技巧时,如果需要存储核矩阵,则空间复杂度为 ;
- 模型预测时,预测时间与支持向量的个数成正比。当支持向量的数量较大时,预测计算复杂度较高。
因此支持向量机目前只适合小批量样本的任务,无法适应百万甚至上亿样本的任务。
-------------------------------------------------------------------------------------------------
1. 原理
2. 怎么理解最大间隔
3. 软间隔
4. 核函数的理解
5. 常用的核函数
关于为什么要通过求解对偶问题,个人理解有以下两个原因:
1. 是原始问题不好解,对偶问题转换之后能够降低计算的复杂度。
2. 对偶问题中设计到的是一些内积计算,可以引入核函数,引入非线性