机器学习-支持向量机SVM

简介：

支持向量机（SVM）是一种二分类的监督学习模型，他的基本模型是定义在特征空间上的间隔最大的线性模型。他与感知机的区别是，感知机只要找到可以将数据正确划分的超平面即可，而SVM需要找到间隔最大的超平面将数据划分开。所以感知机的超平面可以有无数个，但是SVM的超平面只有一个。此外，SVM在引入核函数之后可以处理非线性问题。

SVM根据数据的不同可以分为以下三种形式：

1.线性可分支持向量机，也叫做硬间隔支持向量机，处理的数据是线性可分的，通过硬间隔最大化来学习一个线性可分的模型。

2.线性支持向量机，也叫做软间隔支持向量机，当数据近似线性可分时，通过引入松弛因子，软间隔最大化学习一个线性可分的模型。

3.非线性支持向量机，当数据线性不可分时，通过引入核函数将数据映射到高维空间后，学习得到一个非线性支持向量机。

线性可分支持向量机

考虑一个二分类问题，当数据可以在分布空间中通过一个超平面将正负样例分割开，一面为正类，一面为负类，我们就称数据是线性可分，这个分离超平面的方程为：w*x+b=0。而在线性可分数据中存在着无数个超平面可以将数据分割开（参考感知机），我们要找到其中最好的超平面，这个超平面不仅可以将训练集数据很好的划分开，还有更好的泛化能力。下图中很显然直线B是最好的一条分割线，所以选择间隔最大的一个超平面作为我们需要的最优的超平面。

图1

求解超平面w*x+b=0就是求w和b，以及对应的分类决策函数f(x)=sign(w*x+b)，称之为线性可分支持向量机。

根据点到直线距离公式：

图2

其中A为w向量，C为b，因为超平面的y值为0，所以对于支持向量机的点到超平面距离可以写作：

图3

又因为w*x+b的边界为正负1，两个边界到超平面的距离和γ等于2倍的r，所以图3又可以写作：

图4

这就是几何间隔。下图是支持向量机的各个概念图：

图5

当数据点为正类时，其y=+1，w*x+b>=+1，当数据点为负类时y=-1，w*x+b<=-1，所以y*(w*x+b)始终大于等于1，其中y*(w*x+b)成为函数间隔。

要找到间隔最大的超平面，也就是要找到满足y*(w*x+b)>=1约束条件的参数w和b，使得γ最大。即：

图6

显然为了最大化间隔，仅需最大化||w||，这等价于最小化||w||的2次方，所以可以重写为：

图7

其中目标函数和约束函数都是连续可微的凸函数，并且目标函数是二次函数，约束函数是仿射函数，所以该约束问题是一个凸二次规划问题。

求解凸二次规划约束问题常用的办法是引入拉格朗日乘子，通过求解对偶问题得到原始问题的解。这就是线性可分支持向量机的对偶算法。

首先定义拉格朗日函数，对每个不等式约束引入拉格朗日乘子αi>=0,i=1,2,3....n.拉格朗日函数为：

图8

这样就把带有约束问题的求极值问题转为无约束求极值问题，接下来根据拉格朗日对偶性求解原始问题的对偶问题：

图9

以上就是求解线性可分支持向量机的全部过程，求解得到w和b之后就可以得到分类超平面：

图10

以及分类决策函数：

图11

根据图9中w*和b*的结果可以看出，w*和b*只依赖于αi>0对应的(xi，yi)样本点，这些样本点称为支持向量。

线性支持向量机

当数据近似线性可分时，也就是说数据中存在噪声点，我们通过引入松弛因子，使函数间隔加上松弛因子ξ后大于等于1，这样约束条件就变成：

图12

对于每个松弛因子ξi需要支付一个代价，所以目标函数也就是代价函数变为：

图13

其中C>0称为惩罚参数，是超参数需要我们手动调参，C值越大时对误分类的惩罚增大，支持向量机的间隔宽度越窄，C值越小时对误分类的惩罚越小，支持向量机的间隔宽度越宽。而ξ的几何意义代表着，误分类数据点离正确分类一侧的距离，是几何距离。

那么这个松弛因子ξ是怎么来的呢？因为数据是近似可分的存在着许多噪音点，所以当计算代价函数时，这些误分类点要算入代价函数中去。这些误分类点的函数间隔y*(w*x+b)<=-1，所以代价函数可以写成带有0/1损失函数的集合函数，就是当数据点的函数间隔减去1小于0的话(误分类点)，需要计算入代价函数，数据点的函数间隔减去1大于0的话(正确分类点)，不需要计算入代价函数：