斯坦福机器学习视频笔记 Week7 支持向量机 Support Vector Machines
SVM被许多人认为是最强大的“黑箱”学习算法,并通过提出一个巧妙选择的优化目标,今天最广泛使用的学习算法之一。
Optimization Objective
根据Logistic Regression,有如下表述:
为了达到尽量好的分类效果,我们需要theta‘*x >> 0 or theta‘*x << 0,根据上面的函数图象,这时候的h(x)->1 or h(x)->0,可以看出这时我们的分类效果是最具说服力的。
根据逻辑回归的Cost Function我们可以得到上面灰色的函数图像,
if y=1,随着z的增大,Cost Function的值趋近于0;
if y=0,随着z的减小,Cost Function的值趋近于0;
在SVMs中,为了使分类结果更具说服力(使y等于0,1的概率更大),我们将使用上面的玫瑰色的函数轨迹替代灰色轨迹,把它们分别称为cost1(y=1)和cost0(y=0),
可以看到,它们二者的很类似,除了当Z>=1时,使Cost Function等于0(y=1时);当Z<=-1时,使Cost Function等于0(y=0时)。
当然,这里你也可以将等于0的点设置为其他数据,比如z>=2,3等,视你的系统情况而定,z>=1不是硬性规定。
逻辑回归的Cost Function:
根据逻辑回归的Cost Function,我们得到SVM的Cost Function:
和上面的公式相比,SVM的Cost Function的两项都去掉的1/m,这个不会影响我们求最优值,因为最值和函数系数无关;
多了一个C,少了一个lambda,这个可以理解为C = 1/lambda,关于参数C后面还会讲到。
Large Margin Intuition
上面的图,是我们之前谈论的一个总结。在SVM中,我们使用上面的损失函数,且使theta'*x>=1时取y=1,而不再是像逻辑回归中的仅仅是theta'*x>=0;当y=0时,是一个意思。
为了方便研究我们的最优化目标,将C取一个很大的值,比如C=100,000,为了得到最小的Cost Function值,我们记上面方框中的式子为 W ,则必须使W的式子取值趋于0,
W有两项组成,当y=1时,此时W就只有第一项,根据之前cost1的图像可知,此时只需要取theta‘*x>=1就可使Cost Function等于0;y=0时,同理使theta‘*x<=-1可使Cost Function等于0。
然后我们的最优化目标将可简化为:
Large Margin
我们称SVM为“Large Margin Classifier“,下面将体现最大间隔:
这里给的样本是线性可分的,直观上来看,这里的粉色和绿色的都不是最大间隔,而是黑线,蓝色线是与最近的样本点相近的黑线的平行线。
下面给出一个非线性可分的样本,
当C很大时,SVM是严格的分类器,此时将严格划分样本点,可以看出此时的间隔已经非常不好了,上图红色的。
当C不是很大时,SVM可以允许有一定的噪声点,此时会直接忽略,得到一个看上去不错的分类间隔,上图黑色的。
The'mathematics' behind'large'margin' classification'(optional)
首先,在这里我假设大家都知道向量内积和向量投影。
上面的基本意思就是,向量u和v计算内积,p是向量v在向量u方向上的投影,那么u’*v = p * ||u||=u1*v1+u2*v2.
其中投影p可正可负,是向量具有方向。
同理,将此应用到theta‘*x中去,此时p是x在theta方向上的投影,如下图所示。
上面使用的最优化目标是使C很大时,简化过后的,这样方便讨论。下面的讨论要结合上面和下面的图一起看。
由上面的讨论可知,当y=1时,theta’*x>=1 在这里就等价于 p * ||theta|| >= 1,优化目标变成1/2 * ||theta||^2。
这里我们设theta0=0,这样间隔面会通过原点.下面给一个样本集合,随意画一个间隔平面,将正负类分开。
我们知道间隔面的法向量thea跟它垂直,故x在theta上的投影p就是上图theta方向上的红色有向线段。
可以看出,在上面的情况,绿色的间隔面,此时正样本X的投影p取>0的很小的值,若要满足p * ||theta|| >= 1 的条件,必须使theta变得足够大,这样就跟我们最小化目标1/2*||theta||^2不符合了,所以这个就不是我们所需要的“最大间隔”。在负样本时p取<0的很小值,同样不满足最优化要求。那么最大间隔会是怎样的呢?看下面。
此时的样本的投影P不论在>0or<0时的取值都比较大,所以为了满足p*||theta||>1,此时的theta就可以取较小的值了,就能得到最优化的结果,即为最大间隔。
所以最优的间隔应该是使x的投影p尽可能大。
SVM Kernles
首先我们从下面的非线性决策边界分类说起。
在之前,我们学习过用多项式模型拟合出上面的边界。我们将featuer使用f1,f2,...来表示。
当我们使用多项式模型时,计算成本大大加重,这在图像处理时根本就是无法使用的。
思考一下featuer有没有更好的表示方法呢?下面将介绍基于landmark的方法。
给定的样本x,我们计算其与landmarks(l1,l2,l3)的相近度来确定new feature,上面使用Gaussian Kernels作为相似函数,分别计算f1,f2,f3...
结合上图的分析可知,当样本x与landmark接近时,其f1->1,相反,当x离l很远时,f1->0.计算后的f,将作为new feature。
关于f作以下说明:
f作为图像的z轴的高,最高值为1,该点对应的坐标即为l1,从该点想四周扩散时,f在不断减小直至趋于0.关于参数sigma,是控制f值下降的快慢。
下面来讨论引入new feature的SVM是如何预测分类的。
首先根据样本x和landmarks计算f1,f2,f3,假设现在已经训练出了参数theta如上面所示,
则将算的f带入上面的式子,用向量表示为theta‘*f,如果其结果>=0,则预测结果为y=1;结果为<0,则预测结果为y=0。
上面的结果便是,离l1和l2近的点其预测为y=1,即在那个红色的圈内,y=1;在圈外预测y=0.
下面就将说明如何确定landmark和训练theta。
我们把每一个样本都作为landmark,l(1) = x(1),l(2) = x(2),...
然后使用Kernel计算new feature f1,f2,....
其中每个x(i)对应的f(i),每个f(i)都有一个分量f(i,i)=1,如上图红笔所示,然后设每一个f向量的f(0)=1,这样就得到了new feature的f向量,这里的样本x和f都是(m+1)维的数据。
接下来就是训练theta。
通过最小化上面的Cost Function,便可以得到参数theta,这里使用new feature f 替代x,带入cost1和cost2.
然后就可以使用训练得的theta参数进行分类预测了。if theta’*f >= 0,predict ‘y=1’,otherwise ‘y=0’。
下面是关于SVM参数C和Gaussian Kernels参数sigma的说明。
提示一下,当使用参数C时,请把它看作是逻辑回归中的1/lambda,然后就可以根据lambda来分析bias和variance。
同理,sigma可以看作是高斯分布中的sigma,表示图像的宽度。
Using an SVM
在使用SVM时,请注意图中画框的部分,主要是参数C和Kernel的选择,如果选择Gaussian Kernel就要面临参数sigma的选择。
需要提醒的是,在使用Gaussian Kernel时请务必先进行feature scaling。
另外,除了上面提到的不同的kernel,还有其他的选择,如下。
SVM也可以扩展到多分类,原理和logistics regression相似,都是one-vs-all method,具体可以参考http://www.cnblogs.com/yangmang/p/6352118.html
最后还有一件事,比较一下logistics regression和SVMs。
参考:http://blog.csdn.net/abcjennifer/article/details/7849812