【Supervised Learning】支持向量机SVM (to explain Support Vector Machines (SVM) like I am a 5 year old )

Support Vector Machines

引言

内核方法是模式分析中非常有用的算法,其中最著名的一个是支持向量机SVM

工程师在于合理使用你所拥有的toolkit
相关代码 sklearn-SVM

本文要点

1.Please explain Support Vector Machines (SVM) like I am a 5 year old - Feynman Technique
2.kernel trick

一、术语解释

1.1 what is support vector?

从名词解释角度来看:
“支持向量机”为偏正结构,所以分别解释“支持向量”和“机”
(1) “机” —— Classification Machine,分类器,这个没啥好说的了。Machine means system.
(2) “支持向量” —— Support Vector.在maximum margin上的这些点就叫支持向量,我想补充的是为啥这些点就叫支持向量,因为最后的classification machine的表达式里只含用这些“支持向量”的信息,而与其他数据点无关:

这个表达式中,只有支持向量的系数不等于0
引用Wiki:Support vector machine

  • classification problem
  • support vector can be used to define decision boundary.

support vector本质是向量,而这些向量却起着很重要的作用,如果做分类,他们就是离分界线最近的向量。也就是说分界面是靠这些向量确定的,他们支撑着分类面。

1.2 点积

投影 —— to a number : represents how much they're pointing in the same direction
表示向量指向同一方向的程度(相似度的度量)
the projection of one of those onto the other

在数学中,数量积(dot product; scalar product,也称为点积)是接受在实数R上的两个向量并返回一个实数值标量的二元运算。
它是欧几里得空间的标准内积。
两个向量$ a = [a1, a2,…, an] $ 和 $ b = [b1, b2,…, bn] $ 的点积定义为:
$ a·b=a_1b_1+a_2b_2+……+a_nb_n \( 使用矩阵乘法并把(纵列)向量当作n×1 矩阵,点积还可以写为: \) a·b=a^T*b $ ,这里的 \(a^T\) 指示矩阵 \(a\) 的转置。

\(X^T * y\) : the projection of y onto x.

投影到第三个维度上,并且找到一个分隔超平面

1.4 核技巧 kernel trick

本质:高维攻击低维 <三体>

what is the kernal?

the kernel is the function itself ——represent similarity

1.5 Mercer Condition

直观解释:
核函数要能够作为一种距离或一种相似性,它不能是一个与各个点都不相关的任意条件。

1.6 小结

  • margins ~ generalization & overfitting
  • optimization problem for finding max margins : turn out to be quadratic programming.
  • the dual of the quadratic problem. (二次规划问题的对偶)
  • support vectors
  • kernel trick : project the data into a higher dimension sapce
  • X^T y generalize it to a generic similarity function K(X,y)
  • domain knowledge
  • Mercer Condition

二、 Explain (SVM) like I am a 5 year old

深入浅出 ,可谓是Feynman Technique的经典实例。
整理参考自知乎@简之

@Han Oliver@Linglai Li 前辈们的解释让人受益许多。
正好最近自己学习机器学习,看到reddit上 Please explain Support Vector Machines (SVM) like I am a 5 year old 的帖子,一个字赞!于是整理一下和大家分享。(如有错欢迎指教!)

什么是SVM?

当然首先看一下wiki.
Support Vector Machines are learning models used for classification: which individuals in a population belong where? So… how do SVM and the mysterious “kernel” work?

好吧,故事是这样子的:
在很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏。
魔鬼在桌子上似乎有规律放了两种颜色的球,说:“你用一根棍分开它们?要求:尽量在放更多球之后,仍然适用。”

于是大侠这样放,干的不错?

然后魔鬼,又在桌上放了更多的球,似乎有一个球站错了阵营。

SVM就是试图把棍放在最佳位置,好让在棍的两边有尽可能大的间隙。

现在即使魔鬼放了更多的球,棍仍然是一个好的分界线。

然后,在SVM 工具箱中有另一个更加重要的trick。 魔鬼看到大侠已经学会了一个trick,于是魔鬼给了大侠一个新的挑战。

现在,大侠没有棍可以很好帮他分开两种球了,现在怎么办呢?当然像所有武侠片中一样大侠桌子一拍,球飞到空中。然后,凭借大侠的轻功,大侠抓起一张纸,插到了两种球的中间。

现在,从魔鬼的角度看这些球,这些球看起来像是被一条曲线分开了。

再之后,无聊的大人们,把这些球叫做 「data」,把棍子 叫做 「classifier」 , 最大间隙trick 叫做「optimization」, 拍桌子叫做kernelling」, 那张纸叫做「hyperplane」
图片来源:Support Vector Machines explained well
直观感受看:https://www.youtube.com/watch?v=3liCbRZPrZA

作者:简之
链接:https://www.zhihu.com/question/21094489/answer/86273196
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

三、关于SVM的数学理解

大部分图源自 台大 林轩田老师 的讲义。

内容大概分为以下几个部分。

  • 传统的SVM:最大间隔分类器

  • SVM的优缺点

  • SVM的第一种变形:软间隔分类器

  • SVM的第二种变形:kernel method

  • kernel,不止限于SVM

----------我是开始的分割线---------------

1. SVM:最大间隔分类器

回想一下所谓感知机:


感知机算法(PLA)可以找到一条线,把右图中的x和o分开。但是在使用时,往往会存在下面这样尴尬的情况:

这三条线都能成功的分开训练集中的点。但人类的直观感觉,第三种作为分类边界似乎更加‘稳妥一些’。 这种口语化的描述转化为数学语言,就是,我们希望寻找一条线,在能正确分类的同时,与数据点的分隔距离(margin)尽量的大。
如果真的去测量一下margin,就会得到下图:

最右面的图,确实是具有最大间隔的。而支持向量机,就是可以返回 margin最大的分隔直线 的一种分类算法。

SVM中的优化问题可以写成:

求解细节会用到凸优化,这里不再重复,但是我认为 这个过程中有一个 细节是必须要注意到的,就是转化为对偶问题后,待优化函数的形式,和最后表达式的样子:
上述优化问题的对偶问题长成这样:

(z就是x,我也不知道为啥林轩田换符号了)

而最终的返回结果长成这个样子

具体的推导可以不费力去搞懂,但里面有一点必须要格外留意,即只有数据点之间的内积会出现在最终的表达式里。 这一点与最终理解kernel息息相关。

2. svm的优缺点

SVM的优点是,返回的分割直线满足margin最大的条件,所以是一个robust的解。而且虽然上面因为没有具体写出推导过程所以这么说比较突兀,SVM对数据点的依赖 是稀疏的 ,只有少量支持向量对最终结果有贡献。

传统的SVM的缺点也很明显。首先SVM的优化问题比较复杂,不仅人难以理解,写起程序来也比较复杂,必须要用到Sequential minimal optimization(SMO)。其次,传统的SVM只能处理线性可分的问题,并且对数据中的噪音也很敏感,因此我们必要对算法进行改造。

3. SVM 的第一种变形:软间隔SVM

有时数据集大概还是线性可分的,只是存在一些噪音,比如下图:

,对于这种问题,我们的处理方式是 允许SVM犯一点错 。 这样的思想就产生了 Soft-Margin SVM 算法。

软间隔svm的优化问题大概长成这样:


第一项 $ \frac{1}{2}\omega^T\omega$ 代表我们希望间隔最大
而第二项中引入了松弛变量 \(\xi\) 代表我们在要求数据点满足约束的同时,也允许有一些异常点存在,他们或者分类错了,或者只是出现在了绿色的带状禁区里面。 而参数C就控制着二者的权衡。这就是sklearn中 正则化系数C的起源。

引入正则化之后,SVM对数据中的噪音不再敏感。可以更好的处理线性分类问题。

4. SVM的第二种变形: kernel method

有事数据集根本就不是线性可分问题,比如下图:


,这样的问题再搞正则项也没用,这时我们需要一种新的思想: 升维
升维的思想简单说来就是:在原来feature的基础上人为的构造一些新的feature,在更高维度的空间里,原来不线性可分的问题就会变成线性可分的问题,就又可以用svm了。
相关的讨论论坛上已经有好多,我再这儿搬运一个帖子,http://www.zhihu.com/question/30371867,对高维空间里的线性可分来个直观感受。

升维的思想确实很漂亮,但是现实往往是很骨感的:如果对不同的数据集,每次都要寻找一个合适的函数,来把低维空间中的点x映射到高维空间中去是一件很困难的事情。
但是回想一下svm里的最终表达式,其实具体的表达式并不在最终结果里出现,出现的只有内积 \(<f(x_i),f(x_j)>\)。如果有办法直接算出高维空间中的新内积,不就不需要费力去构造了吗?

Kernel method正是基于这一思想的技巧。我们可以把kernel想象成 \(k(x_i,x_j) = <f(x_i),f(x_j)>\),然后不去操心\(f(x)\),而是尝试不同的kernel function就可以了。通常使用的kernel 有:

  • linear kernel(其实就是不用kernel不升维)

  • Polynomial Kernel

  • Gaussian Kernel(sklearn里叫rbf kernel

当你选用kernel时,升维已经自动做好了,所以在调用sklearn中带kernel的svm时才会各种奇形怪状的分类边界。

这里有一种kernel比较特别,高斯核。高斯核对应的映射f(x)是可以反算出来的,结果证明是 无穷维。 有兴趣的同学可以看一下下面的推导。


我想看到这里各位同学应该能理解为什么 svm with rbf kernel会这么强大,因为在选用rbf kernel时,数据已经被映射到了无穷维的空间中去,从而保证数据一定是线性可分的。

5. kernel,不止限于SVM

事实上,SVM这一节里面最重要的思想倒不是SVM本身,而是kernel。 Kernel提供了一种在 不写出具体映射表达式的情况下,计算数据内积的方法。 原则上说,但凡是需要计算内积的算法,都可以使用kernel trick,而不仅仅局限于svm。

我现在脑子里有的一个例子就是 带kernel的特征筛选算法 Lasso. 附上一篇paper的链接。
http://cs.brown.edu/~ls/Publications/nc2014yamada.pdf55

----------结束的分割线-----------

参考链接

1.夏令营线下讨论——监督学习算法小结:支持向量机

2.简洁明了:知乎+reddit Please explain Support Vector Machines (SVM) like I am a 5 year old

3.Udacity - SVM

posted @ 2018-02-24 21:01  Neo007  阅读(544)  评论(0编辑  收藏  举报