支持向量机学习笔记

支持向量机

\(R^n\)空间中的点\(x\in R^n\)，超平面\(f(x)=w^Tx+b=0,w\in R^n,b\in R\)。整个n维空间被分成两部分。\(w\)就是这个超平面的法向量。\(w\)指向的那个方向就是\(f(x)\)为正的那一部分。

点到超平面距离：\(\frac{|ax_0+by_0+c|}{\sqrt{a^2+b^2}}\)。为了想让距离体现出点在超平面的哪一侧，通常不加这个绝对值符号：\(\frac{ax_0+by_0+c}{\sqrt{a^2+b^2}}\)。

对于高维超平面，给出点\(x_0\in R^n\)，\(w\)为法向量，从\(x_0\)引垂线到\(x_1\)，则\(x_0-x_1=l\frac{w}{|w|}\)，故\(|l|=|x_0-x_1|\)，且\(x_1\)在超平面上。\(x_1=x_0-\frac{lw}{|w|},f(x_1)=w^Tx_1+b=(w,x_1)+b=(w,x_0)-l|w|+b=0\)，最终得到：\(l=\frac{(w,x_0)+b}{|w|}=\frac{w^Tx_0+b}{|w|}=\frac{f(x_0)}{|w|}\)

现在平面上有若干个两种颜色的点，尝试将其二分类。使用感知机模型很容易找到一个超平面将其区分，但这样的效果好吗？支持向量机希望找到的超平面是尽可能好的，希望不同分类的点中到超平面的最短垂直距离尽可能大。直观来看，如果两个分类的点到超平面的最短距离一样大，那么这个超平面既不能往上移动，也不能往下移动。

形式化来说，对于\((x_1,y_1)...(x_n,y_n),x_i\in R^k,y_i\in \{0,1\}\)，给出\(w\in R^k,b\in R\)，分类平面\(f(x)=w^Tx+b=0\)。带符号距离：\(\frac{w^Tx_i+b}{|w|}\)。我们希望的是\(y_i(\frac{w^Tx_i+b}{|w|})>0\)，表示确实分开了，希望\(max_{w,b}(min_i \frac{y_i(w^Tx_i+b)}{|w|})\)

优化问题：\(max_{w\in R^k,b\in R}(min_{i}\frac{y_i(w^Tx_i+b)}{w})\)，约束条件为\(y_i(w^Tx_i+b)>0\)。

极小化风险？极大化收益？把\(y_i(w^Tx_i+b)\)看作收益，\(|w|\)看作风险，则优化问题1：\(max_{w,b}(min_i(y_iw^Tx_i+b))\)，约束条件为\(||w||=1\)（风险固定）。优化问题2：\(min||w||\)，约束条件为\(min_i(y_i(w^Tx_i+b))\geq 1\)，这等价于\(min||w||^2\)，约束条件为\(\forall i\in[1,n],y_i(w^Tx_i+b))\geq 1\)。

求解这个问题可以引入二次规划，通常形式为：

有现成的包可以对其进行求解。

如果不使用二次规划的话，那么就可以从对偶问题的角度出发，受拉格朗日乘子法的启发：

\(max_{a_i\geq 0}(||w||^2+\Sigma_{i=1}^n a_i(1-y_i(w^Tx_i+b)))\)

如果约束条件都满足，即\(1-y_i(w^Tx_i+b)\leq0\)，因为\(a_i\geq0\)，因此求和号里是恒小于等于0的。因此只有ai等于0的时候才能得到极大，此时要极大化的就是\(||w||^2\)。而如果\(1-y_i(w^Tx_i+b)>0\)，那么极大化的结果是正无穷。

求极小的时候，\(min_{b,w}(max_{a_i\geq 0}(||w||^2+\Sigma_{i=1}^n a_i(1-y_i(w^Tx_i+b))))\)等于求\(min\ ||w||^2\)且满足约束条件\(1-y_i(w^Tx_i+b)\leq0\)

现在就把一个二次规划问题转换为带有拉格朗日乘子法性质的问题。\(a_i\)必须是正的！

现在把min和max交换一下位置，问题等价于\(max_{a_i\geq 0}(min_{b,w}(||w||^2+\Sigma_{i=1}^n a_i(1-y_i(w^Tx_i+b))))\)。为什么对于这个问题可以交换呢？因为里面的这部分是关于\(w\)的凸函数，通常这种情况下是可以交换的。此时\(a_i\)固定，可以对\(w,b\)求梯度：\(2w=\Sigma_{i=1}^na_iy_ix_i,\Sigma_{i=1}^na_iy_i=0\)。可以得到\(w=\frac{1}{2}\Sigma_{i=1}^na_iy_ix_i\)，将其回代，得到：\(max_{a_i\geq0}(-\frac{1}{4}\Sigma_{i,j=1}^na_ia_jy_iy_jx_i^Tx_j+\Sigma_{i=1}^na_i)\)，且\(\Sigma_{i=1}^na_iy_i=0\)。眼前的这个优化问题中，\(y_i\)都是给定的，\(x_i\)也都是给定的。因此这个问题就变成了针对于\(a_i\)的一个问题。其中\(a_i\)都是一次的和二次的，针对\(a_i\)的约束也都是一次的和二次的。可以发现这是一个对于\(a_i\)的二次规划问题。把对于\(w\)的二次规划问题转换为对于\(a_i\)的二次规划问题后究竟得到了什么信息呢？主要体现：对于\(a_i\)的二次规划问题中，\(x_i^Tx_j=(x_i,x_j)\)，如果这个内积是另外一种形式，这丝毫不影响二次规划的结果。分析如下：对于\(\Phi:R^k\to R^m(k<m)\)，经过非线性变换：\(x\to\Phi(x)\)，这个变换过程可能是非线性的，当然也可能就是简单的升维。\((x_1,y_1)...(x_n,y_n)\to(\Phi(x_1),y1)...(\Phi(x_n),y_n)\)。对于低维空间线性不可分的点，升维变换后可能就线性可分了。问题变为：\(max_{a_i\geq0}(-\frac{1}{4}\Sigma_{i,j=1}^na_ia_jy_iy_j(\Phi(x_i),\Phi(x_j))+\Sigma_{i=1}^na_i),\Sigma_{i=1}^na_iy_i=0,a_i\geq 0\)。如果解出了所有的a，那么应该怎么区分原来的点呢？此时\(w=\Sigma_{i=1}^na_iy_i\Phi(x_i)\)，超平面\(R^m:(w,x)+b=0\)等价于\((\Sigma_{i=1}^na_iy_i\Phi(x_i),\Phi(X))+b=0\)。其放到低维空间是超曲面。

更一般的内积：\(K(x_i,x_j)=(\Phi(x_i),\Phi(x_j))\)，也可以是这样的：\(K(x_i,x_j)=(a+b(x_i,x_j))^m\)。条件是，不论什么样的内积，其构成的二维矩阵必须是正定的。满足这样的条件的函数\(K\)：核函数。其可以对应到\(\Phi:R^k\to R^m\)。这里的m可以小于等于正无穷。

二次规划：\(max_{a_i\geq0}(-\frac{1}{4}\Sigma_{i,j=1}^na_ia_jy_iy_jK(x_i,x_j)+\Sigma_{i=1}^na_i)\)，且要满足约束条件。\(f(x)=\Sigma_{i=1}^na_iy_iK(x_i,X)+b\)，分类问题就变成\(f(x)>0\ or \ <0\)。最后可能绝大部分\(a_i=0\)，不等于0的\(a_i\)对应的点就构成了支持向量。

posted @ 2022-04-11 00:34 脂环阅读(51) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Loading

脂环

支持向量机学习笔记

支持向量机

公告