机器学习第十周——支持向量机

一.SVM算法简介

 SVM的全称是Support Vector Machine,即支持向量机,主要用于解决模式识别领域中的数据分类问题,属于有监督学习算法的一种。SVM要解决的问题可以用一个经典的二分类问题加以描述。如下图所示,红色和蓝色的二维数据点显然是可以被一条直线分开的,在模式识别领域称为线性可分问题。然而将两类数据点分开的直线显然不止一条。图中(b)和(c)分别给出了A、B两种不同的分类方案,其中黑色实线为分界线,术语称为决策面”。每个决策面对应了一个线性分类器。虽然在目前的数据上看,这两个分类器的分类结果是一样的,但如果考虑潜在的其他数据,则两者的分类性能是有差别的。

 

 

  SVM算法认为图中的分类器A在性能上优于分类器B,其依据是A的分类间隔比B要大。这里涉及到第一个SVM独有的概念“分类间隔”。在保证决策面方向不变且不会出现错分样本的情况下移动决策面,会在原来的决策面两侧找到两个极限位置(越过该位置就会产生错分现象),如虚线所示。虚线的位置由决策面的方向和距离原决策面最近的几个样本的位置决定。这两条平行虚线正中间的分界线就是在保持当前决策面方向不变的前提下的最优决策面。两条虚线之间的垂直距离就是这个最优决策面对应的分类间隔。显然每一个可能把数据集正确分开的方向都有一个最优决策面(有些方向无论如何移动决策面的位置也不可能将两类样本完全分开),而不同方向的最优决策面的分类间隔通常是不同的,那个具有“最大间隔”的决策面就是SVM要寻找的最优解这个真正的最优解对应的两侧虚线所穿过的样本点,就是SVM中的支持样本点,称为“支持向量”。对于上图中的数据,A决策面就是SVM寻找的最优解,而相应的三个位于虚线上的样本点在坐标系中对应的向量就叫做支持向量。

 二.线性SVM算法

   SVM算法要解决的是一个最优分类器的设计问题。既然叫作最优分类器,其本质必然是个最优化问题。一最优化问题通常有两个最基本的因素:1)目标函数,也就是你希望什么东西的什么指标达到最好;2)优化对象,你期望通过改变哪些因素来使你的目标函数达到最优。在线性SVM算法中,目标函数显然就是那个“分类间隔”,而优化对象则是决策面。所以要对SVM问题进行数学建模,首先要对上述两个对象(“分类间隔”和“决策面”)进行数学描述。按照一般的思维习惯,我们先描述决策面。

2.1 决策面方程

 请暂时不要纠结于n维空间中的n-1维超平面这种超出正常人想象力的情景。我们就老老实实地看看二维空间中的一根直线。

 y=ax+b (2.1)

现在我们做个小小的改变,让原来的x轴变成x_1轴,y变成x_2轴,于是公式(2.1)中的直线方程会变成下面的样子。

 

x_2=ax_1+b (2.2)

 

              ax_1+(-1)x_2+b=0 (2.3)

 

公式(2.3)的向量形式可以写成

 

               [a,-1]\left[ \begin{array}{c}x_1\\x_2\end{array} \right] +b=0 (2.4)

 

 考虑到我们在等式两边乘上任何实数都不会改变等式的成立,所以我们可以写出一个更加一般的向量表达形式:

 

                \boldsymbol{\omega}^T\boldsymbol{x}+\gamma=0 (2.5)

 

 

看到变量\boldsymbol{\omega},\boldsymbol{x}略显粗壮的身体了吗?他们是黑体,表示变量是个向量,\boldsymbol{\omega}=[\omega_1,\omega_2]^T\boldsymbol{x}=[x_1,x_2]^T。一般我们提到向量的时候,都默认他们是个列向量,所以我在方括号[ ]后面加上了上标T,表示转置,它可以帮忙把行向量竖过来变成列向量,所以在公式(2.5)里面\boldsymbol{\omega}后面的转置符号T,会把列向量又转回到行向量。这样一个行向量\boldsymbol{\omega}^T和一个列向量\boldsymbol{x}就可快快乐乐的按照矩阵乘法的方式结合,变成一个标量,然后好跟后面的标量\gamma相加后相互抵消变成0。

就着公式(2.5),我们再稍稍尝试深入一点。那就是探寻一下向量\boldsymbol{\omega}=[\omega_1,\omega_2]^T和标量\gamma的几何意义是什么。让我们回到公式(2.4),对比公式(2.5),可以发现此时的\boldsymbol{\omega}=[a,-1]^T。然后再去看公式(2.2),还记得那条我们熟悉的直线方程中的a的几何意义吗?对的,那是直线的斜率。如果我们构造一个向量\boldsymbol{\phi} = [1,a]^T,它应该跟我们的公式(2.2)描述的直线平行。然后我们求一下两个向量的点积\boldsymbol{\omega}^T\boldsymbol{\phi},你会惊喜地发现结果是0。我们管这种现象叫作“两个向量相互正交”。通俗点说就是两个向量相互垂直。当然,你也可以在草稿纸上自己画出这两个向量,比如让a=\sqrt{3},你会发现\boldsymbol{\phi} = [1,a]^T在第一象限,与横轴夹角为60°,而\boldsymbol{\omega}=[a,-1]^T在第四象限与横轴夹角为30°,所以很显然他们两者的夹角为90°。

现在是不是已经忘了我们讨论正交或者垂直的目的是什么了?那么请把你的思维从坐标系上抽出来,回到决策面方程上来。我是想告诉你向量\boldsymbol{\omega}=[\omega_1,\omega_2]^T跟直线\boldsymbol{\omega}^T\boldsymbol{x}+\gamma=0 是相互垂直的,也就是说\boldsymbol{\omega}=[\omega_1,\omega_2]^T控制了直线的方向。另外,还记得小时候我们学过的那个叫做截距的名词吗?对了,\gamma就是截距,它控制了直线的位置。

 n维空间中n-1维的超平面的方程形式也是公式(2.5)的样子,只不过向量\boldsymbol{\omega},\boldsymbol{x}的维度从原来的2维变成了n维。如果还是想不出来超平面的样子,也很正常。

2.2 分类“间隔”的计算模型

       间隔的大小实际上就是支持向量对应的样本点到决策面的距离的二倍,如下图所示。 

 所以分类间隔计算似乎相当简单,无非就是点到直线的距离公式。如果你想要回忆高中老师在黑板上推导的过程,可以随便在百度文库里搜索关键词点到直线距离推导公式”,你会得到至少6、7种推导方法。但这里,请原谅我给出一个简单的公式如下:

d = \frac{|\boldsymbol{\omega}^T\boldsymbol{x}+\gamma|}{||\boldsymbol{\omega}||} (2.6)

这里||\boldsymbol{\omega}||是向量\boldsymbol{\omega}的模,表示在空间中向量的长度,\boldsymbol{x}=[x_1,x_2]^T就是支持向量样本点的坐标。\boldsymbol{\omega}, \gamma就是决策面方程的参数。而追求W的最大化也就是寻找d的最大化。看起来我们已经找到了目标函数的数学形式。

2.3 约束条件

接上一节的结尾,讨论一下究竟还有哪些麻烦没有解决:

1)并不是所有的方向都存在能够实现100%正确分类的决策面,我们如何判断一条直线是否能够将所有的样本点都正确分类?

2)即便找到了正确的决策面方向,还要注意决策面的位置应该在间隔区域的中轴线上,所以用来确定决策面位置的截距\gamma也不能自由的优化,而是受到决策面方向和样本点分布的约束。

3)即便取到了合适的方向和截距,公式(2.6)里面的\boldsymbol{x}不是随随便便的一个样本点,而是支持向量对应的样本点。对于一个给定的决策面,我们该如何找到对应的支持向量?

 以上三条问题的本质是“约束条件”,也就是说我们要优化的变量的取值范围受到了限制和约束。事实上约束条件一直是最优化问题里最让人头疼的东西。但既然我们已经论证了这些约束条件确实存在,就不得不用数学语言对他们进行描述。尽管上面看起来是3条约束,但SVM算法通过一些巧妙的小技巧,将这三条约束条件融合在了一个不等式里面。

   我们首先考虑一个决策面是否能够将所有的样本都正确分类的约束。图2中的样本点分成两类(红色和蓝色),我们为每个样本点\boldsymbol{x}_i加上一个类别标签y_i

 

y_i = \left\{\begin{array}{ll}+1 & \textrm{for blue points}\\-1 & \textrm{for red points}\end{array}\right. (2.7)

 

如果我们的决策面方程能够完全正确地对图2中的样本点进行分类,就会满足下面的公式

 

\left\{\begin{array}{ll} \boldsymbol{\omega}^T\boldsymbol{x}_i+\gamma>0 & \textrm{for~~} y_i=1\\\boldsymbol{\omega}^T\boldsymbol{x}_i+\gamma<0 & \textrm{for~~} y_i=-1\end{array}\right. (2.8)

 

如果我们要求再高一点,假设决策面正好处于间隔区域的中轴线上,并且相应的支持向量对应的样本点到决策面的距离为d,那么公式(2.8)就可以进一步写成

 

\left\{\begin{array}{ll} (\boldsymbol{\omega}^T\boldsymbol{x}_i+\gamma)/||\boldsymbol{\omega}||\geq d & \forall~ y_i=1\\(\boldsymbol{\omega}^T\boldsymbol{x}_i+\gamma)/||\boldsymbol{\omega}||\leq -d & \forall~y_i=-1\end{array}\right. (2.9)

 

符号\forall是“对于所有满足条件的” 的缩写。我们对公式(2.9)中的两个不等式的左右两边除上d,就可得到:

\left\{\begin{array}{ll} \boldsymbol{\omega}_d^T\boldsymbol{x}_i+\gamma_d\geq 1 & \textrm{for~~} y_i=1\\\boldsymbol{\omega}_d^T\boldsymbol{x}_i+\gamma_d\leq -1 & \textrm{for~~} y_i=-1\end{array}\right. (2.10)

其中

\boldsymbol{\omega}_d = \frac{\boldsymbol{\omega}}{||\boldsymbol{\omega}||d},~~ \gamma_d = \frac{\gamma}{||\boldsymbol{\omega}||d}

 \boldsymbol{\omega}_d\gamma_d就当成一条直线的方向矢量和截距。你会发现事情没有发生任何变化,因为直线\boldsymbol{\omega}_d^T\boldsymbol{x}+\gamma_d=0和直线\boldsymbol{\omega}^T\boldsymbol{x}+\gamma=0其实是一条直线。现在,现在让我忘记原来的直线方程参数\boldsymbol{\omega}\gamma,我们可以把参数\boldsymbol{\omega}_d\gamma_d重新起个名字,就叫它们\boldsymbol{\omega}\gamma。我们可以直接说:“对于存在分类间隔的两类样本点,我们一定可以找到一些决策面,使其对于所有的样本点均满足下面的条件:”

 

\left\{\begin{array}{ll} \boldsymbol{\omega}^T\boldsymbol{x}_i+\gamma\geq 1 & \textrm{for~~} y_i=1\\\boldsymbol{\omega}^T\boldsymbol{x}_i+\gamma\leq -1 & \textrm{for~~} y_i=-1\end{array}\right. (2.11)

 

公式(2.11)可以认为是SVM优化问题的约束条件的基本描述

2.4 线性SVM优化问题基本描述
公式(2.11)里面\boldsymbol{\omega}^T\boldsymbol{x}_i+\gamma= 1~~\textrm{or}~~-1的情况什么时候会发生呢,参考一下公式(2.9)就会知道,只有当\boldsymbol{x}_i是决策面\boldsymbol{\omega}^T\boldsymbol{x}+\gamma=0所对应的支持向量样本点时,等于1或-1的情况才会出现。这一点给了我们另一个简化目标函数的启发。回头看看公式(2.6),你会发现等式右边分子部分的绝对值符号内部的表达式正好跟公式(2.11)中不等式左边的表达式完全一致,无论原来这些表达式是1或者-1,其绝对值都是1。所以对于这些支持向量样本点有:

 

d = \frac{|\boldsymbol{\omega}^T\boldsymbol{x}_i+\gamma|}{||\boldsymbol{\omega}||}=\frac{1}{||\boldsymbol{\omega}||},~~\textrm{if} ~\boldsymbol{x}_i \textrm {is a support vector} (2.12)

 

公式(2.12)的几何意义就是,支持向量样本点到决策面方程的距离就是1/||\boldsymbol{\omega}||我们原来的任务是找到一组参数\boldsymbol{\omega},~\gamma使得分类间隔W=2d最大化根据公式(2.12)就可以转变为||\boldsymbol{\omega}||的最小化问题,也等效于\frac{1}{2}||\boldsymbol{\omega}||^2的最小化问题。我们之所以要在||\boldsymbol{\omega}||上加上平方和1/2的系数,是为了以后进行最优化的过程中对目标函数求导时比较方便,但这绝不影响最优化问题最后的解。

 

另外我们还可以尝试将公式(2.11)给出的约束条件进一步在形式上精练,把类别标签y_i和两个不等式左边相乘,形成统一的表述:

y_i(\boldsymbol{\omega}^T\boldsymbol{x}_i+\gamma)\geq 1~\forall \boldsymbol{x}_i (2.13)

 

好了,到这里我们可以给出线性SVM最优化问题的数学描述了:

 

\begin{array}{l} \min_{\boldsymbol{\omega},\gamma}\frac{1}{2}||\boldsymbol{\omega}||^2\\ ~\\ \textrm{s. t.}~ ~y_i(\boldsymbol{\omega}^T\boldsymbol{x}_i+\gamma)\geq 1,~~i = 1,2,...,m \end{array} (2.14)

  这里m是样本点的总个数,缩写s. t. 表示“Subject to”,是“服从某某条件”的意思。公式(2.14)描述的是一个典型的不等式约束条件下的二次型函数优化问题,同时也是支持向量机的基本数学模型。(此时此刻,你也许会回头看2.3节我们提出的三个约束问题,思考它们在公式2.14的约束条件中是否已经得到了充分的体现。但我不建议你现在就这么做,因为2.14采用了一种比较含蓄的方式表示这些约束条件,所以你即便现在不理解也没关系,后面随着推导的深入,这些问题会一点点露出真容。

三.求解有限制条件的最优解

通过六步数学推导,求解有条件限制的最优化问题。如果觉得吃力,大家可以仅仅了解推导过程,记住结果即可。

第一步:给出表达式

对于有约束条件的最优化问题,用拉格朗日乘数法来解决,得到(是拉格朗日系数):

此时,我们要求基于的极小值。

第二步:求导

我们对进行求导,可以得到两个式子:

从上两式子可以看出,我们已经求得了和的关系,只要后面接着能够求出优化函数极大化对应的,就可以求出了,至于,由于上两式已经没有,所以最后的可以有多个。

第三步:转换对偶问题

将的求导结果带回到原式中,得到新的目标函数:

其实和是对偶问题。我们可以通过拉格朗日对偶将优化问题转化为等价的对偶问题来求解,原问题和对偶问题在一般情况下是不等价的,但是在SVM中是等价的。

第四步:求a

把方程解出来,会得到很多,大部分都为0,少部分非0,就是支撑向量。

第五步:求w

我们将所有非零的支撑向量相乘并累加起来,最终得到

第六步:求b

已知,将w的结果带入,并且在两侧同时乘以ys后得到,则得到b:

以上是第十周的学习内容,具体pyth案例实践待实际操作后补齐留作之后参考。

 

posted on 2020-05-03 23:27  Mindy-snail  阅读(330)  评论(0编辑  收藏  举报