Datawhale 吃瓜教程 Task05打卡

支持向量机

从几何角度，对于线性可分数据集，支持向量机就是找距离正负样本都最远的超平面，相比于感知机，

其解是唯一的。

如果数据是分布在一个二维平面上的，那么我们可以找到一条直线将正负样本分开。

对于多维空间，我们可以找到n-1维度的平面将正负样本分开。

在样本空间中，划分超平面可通过如下线性方程描述

\[w^Tx+b=0 \]

其中\(w=(w_1;w_2;...;w_d)\)为法向量，决定了超平面的方向；b为位移项决定了超平面与原点之间的距离，显然超平面是由\(w\)与\(b\)决定的。

样本空间中任意点\(x\)到超平面的距离为

\[r=\frac{|w^Tx+b|}{||w||} \]

当\(y_i=+1\)时有

\[w^Tx_i+b\geq+1 \]

当\(y_i=-1\)时有

\[w^Tx_i+b\leq+1 \]

左右两边同乘以y有

\[y(w^Tx+b)\geq1 \]

根据前面支持向量到超平面的距离公式，两个异类支持向量到超平面的距离为

\[max2* {\frac{y(w^Tx+b)}{||w||}} \]

则有\(\gamma=\frac{2}{||w||}\)

最大化间距等同于最小化间距倒数的平方所以有

上述式子其实本身是一个凸二次规划问题，使用拉格朗日乘子法可得到其对偶问题

将支持向量机原问题转化为拉格朗日对偶问题求解主要有如下两个原因：

无论原问题是否为凸优化问题，对偶问题恒为凸优化问题，因为对偶函数恒为凹函数（加负号即可转化为凸函数）。而且原始问题的时间复杂度与特征维数成正比（若特征维数大，会导致出现维数灾难问题），而对偶问题和数据量成正比，当特征维数远高于数据量的时候，采用拉格朗日对偶问题求解更高效
对偶问题能引入核函数，进而可推广到非线性分类问题