02-31 线性支持向量机
更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/p/11686958.html
线性支持向量机
在线性可分支持向量机中说到线性可分支持向量机有一个缺点是无法对异常点做处理,也正是因为这些异常点导致数据变得线性不可分或者会因为它的正好被判断为支持向量导致模型的泛化能力变差。
# 异常点导致数据线性不可分图例
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')
x1 = [2, 2.5, 3.2, 6.5]
x11 = [1, 4.5, 5, 6]
x2 = [1.2, 1.4, 1.5, 1.2]
x22 = [1, 1.5, 1.3, 1]
plt.scatter(x1, x2, s=50, color='b')
plt.scatter(x11, x22, s=50, color='r')
plt.vlines(3.9, 0.8, 2, colors="g", linestyles="-",
label='\(w*x+b=0\)', alpha=0.2)
plt.text(1.1, 1.1, s='异常点A', fontsize=15, color='k',
ha='center', fontproperties=font)
plt.text(6.3, 1.3, s='异常点B', fontsize=15, color='k',
ha='center', fontproperties=font)
plt.legend()
plt.show()
上图可以看出由于异常点A和异常点B可能导致无法按照线性可分支持向量机对上述数据集分类。
# 异常点导致模型泛化能力变差图例
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from sklearn import svm
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')
np.random.seed(8) # 保证数据随机的唯一性
# 构造线性可分数据点
array = np.random.randn(20, 2)
X = np.r_[array-[3, 3], array+[3, 3]]
y = [0]20+[1]20
# 建立svm模型
clf = svm.SVC(kernel='linear')
clf.fit(X, y)
# 构造等网个方阵
x1_min, x1_max = X[:, 0].min(), X[:, 0].max(),
x2_min, x2_max = X[:, 1].min(), X[:, 1].max(),
x1, x2 = np.meshgrid(np.linspace(x1_min, x1_max),
np.linspace(x2_min, x2_max))
# 得到向量w: w_0x_1+w_1x_2+b=0
w = clf.coef_[0]
# 加1后才可绘制 -1 的等高线 [-1,0,1] + 1 = [0,1,2]
f = w[0]x1 + w[1]x2 + clf.intercept_[0] + 1
# 绘制H2,即wx+b=-1
plt.contour(x1, x2, f, [0], colors='k', linestyles='--', alpha=0.1)
plt.text(2, -4, s='\(H_2={\omega}x+b=-1\)', fontsize=10, color='r', ha='center')
# 绘制分隔超平面,即wx+b=0
plt.contour(x1, x2, f, [1], colors='k', alpha=0.1)
plt.text(2.5, -2, s='\(\omega{x}+b=0\)', fontsize=10, color='r', ha='center')
plt.text(2.5, -2.5, s='分离超平面', fontsize=10,
color='r', ha='center', fontproperties=font)
# 绘制H1,即wx+b=1
plt.contour(x1, x2, f, [2], colors='k', linestyles='--')
plt.text(3, 0, s='\(H_1=\omega{x}+b=1\)', fontsize=10, color='r', ha='center')
# 绘制数据散点图
plt.scatter(X[0:20, 0], X[0:20, 1], cmap=plt.cm.Paired, marker='x')
plt.text(1, 1.8, s='支持向量', fontsize=10, color='gray',
ha='center', fontproperties=font)
plt.scatter(X[20:40, 0], X[20:40, 1], cmap=plt.cm.Paired, marker='o')
plt.text(-1.5, -0.5, s='支持向量', fontsize=10,
color='gray', ha='center', fontproperties=font)
# 绘制假设的异常点及假设的间隔边界,毫无意义的代码,为了讲解用
plt.scatter(-1.5, 3, marker='x', c='b')
plt.text(-1.5, 3.1, s='异常点A', fontsize=10,
color='r', ha='center', fontproperties=font)
x_test = np.linspace(-3, 4, 666)
y_test = -(w[0]+0.12)x_test - (w[1]-0.002)x_test+clf.intercept_[0]+1.8
y_test_test = -(w[0]+0.12)x_test - (w[1]-0.002)x_test+clf.intercept_[0]+2.3
plt.plot(x_test, y_test, linestyle='--')
plt.plot(x_test, y_test_test)
plt.xlim(x1_min-1, x1_max+1)
plt.ylim(x2_min-1, x2_max+1)
plt.show()
上图可以看出由于异常点导致分离超平面从淡实线变成了黄色的那条曲线,从图中可以明显看出异常点严重影响了模型的泛化能力。
这次讲到的线性支持向量机(linear support vector machine)将修改线性可分支持向量机的硬间隔最大化为软间隔最大化解决上面有异常点导致的问题。
一、线性支持向量机学习目标
- 硬间隔最大化和软间隔最大化的区别
- 线性支持向量机的支持向量
- 合页损失函数
- 线性支持向量机的步骤
二、线性支持向量机详解
2.1 硬件隔最大化和软间隔最大化
2.1.1 硬间隔最大化
线性可分支持向量机中说到线性可分支持向量机的目标函数的最优化问题属于硬间隔最大化,即
2.1.2 软间隔最大化
上一节讲到异常点会导致数据线性不可分,即意味着某些样本点不能满足函数间隔大于等于的约束条件,为了解决该问题可以对每个样本点引进一个松弛变量,使得函数间隔加上松弛变量大于等于1,因此约束条件将变成
相比较硬间隔最大化,可以看到样本到分离超平面的函数距离要求放松了,之前一定要大于等于,现在只需要加上一个大于等于的松弛变量大于等于即可。同时,每个松弛变量对应一个代价,则目标函数变成了
其中称为惩罚参数,值越大,对误分类样本惩罚越大,即间隔宽度越小;值越小,对误分类样本惩罚越小,即间隔宽度越大。
现在的目标函数有两层意思,即希望尽量小的同时误分类样本也尽可能的少,则是协调两者关系的正则化惩罚系数。上面的思路较于硬间隔最大化称为软间隔最大化,也因此线性支持向量机的原始问题为
2.2 线性支持向量机定义
对于给定的线性不可分的训练数据集,通过求解上一节的线性支持向量的原始问题即凸二次规划问题即软间隔最大化问题,假设问题的解释和,得到的分离超平面为
分类决策函数为
称作线性支持向量机。
2.3 软间隔最大化即目标函数的优化
线性支持向量机的原始问题为
通过线性支持向量机的原始问题可得原始问题的拉格朗日函数为
其中,均为拉格朗日系数。
即现在需要优化的目标函数为
由于优化的目标函数满足KKT条件,即可以通过拉格朗日对偶将上述的优化问题转化为等价的对偶问题为
对偶问题为拉格朗日函数的极大极小问题,因此首先求对的极小,即
得
将上述三个式子代入拉格朗日函数即可得(注:推导过程类似于线性可分支持向量机的推导过程,不多赘述,直接给出结果)
通过即可得的极大,即将上式代入对偶问题得
由于并且,即,再对目标函数变号,即变成求极小值
上式便是线性支持向量机的软间隔最大化问题,与线性可分支持向量机的硬间隔最大化问题相比仅仅是多了一个约束条件,即也可以通过SMO算法求出上式极小化对应的,假设通过SMO算法得到了该值记作,即可根据求得原始最优化问题的解和。
由于接下来的推导过程与线性可分支持向量机一样,不再赘述,值得说一句的是。《线性可分支持向量机》一文曾说道有多少个支持向量机则可能求出多少个,线性可分支持向量机中的都是一样的,可以不用处理;而线性支持向量机由于松弛因子的影响对于不同的支持向量是不同的,通常使用取均值的方法得到最终的。
2.4 支持向量
2.4.1 硬间隔最大化支持向量
硬间隔最大化中的支持向量比较简单,即满足即可。《线性可分支持向量机》曾给出解释:由KKT互补条件可得对于样本点有,并且间隔边界和分别为和,即支持向量一定在间隔边界上。
2.4.2 软间隔最大化支持向量
软间隔最大化的支持向量则由于对每个样本引入了松弛因子变得较为复杂。第个样本到对应类别支持向量的距离为,根据软间隔最大化时的KKT条件中的对偶互补条件可得
-
如果,则,即样本在间隔边界上或者已经被正确分类,即下图中所有远离边界的点
-
如果,则,支持向量恰好落在间隔边界上,即下图中的两个支持向量
-
如果,说明这这可能是一个异常点,需要检查此时的情况
- 如果,则点被正确分类,但是却在分离超平面和间隔边界之间,即下图中的点3
- 如果,则点在分离超平面上,即该点不能被正常分类
- 如果,则点位于分离超平面误分类一侧,即该点不能被正常分类,即下图中的点1和点2
# 软间隔最大化支持向量图例
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from sklearn import svm
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')
np.random.seed(8) # 保证数据随机的唯一性
# 构造线性可分数据点
array = np.random.randn(20, 2)
X = np.r_[array-[3, 3], array+[3, 3]]
y = [0]20+[1]20
# 建立svm模型
clf = svm.SVC(kernel='linear', C=10.0)
clf.fit(X, y)
# 构造等网个方阵
x1_min, x1_max = X[:, 0].min(), X[:, 0].max(),
x2_min, x2_max = X[:, 1].min(), X[:, 1].max(),
x1, x2 = np.meshgrid(np.linspace(x1_min, x1_max),
np.linspace(x2_min, x2_max))
# 得到向量w: w_0x_1+w_1x_2+b=0
w = clf.coef_[0]
# 加1后才可绘制 -1 的等高线 [-1,0,1] + 1 = [0,1,2]
f = w[0]x1 + w[1]x2 + clf.intercept_[0] + 1
# 绘制H2,即wx+b=-1
plt.contour(x1, x2, f, [0], colors='k', linestyles='--')
# 绘制分隔超平面,即wx+b=0
plt.contour(x1, x2, f, [1], colors='k')
# 绘制H1,即wx+b=1
plt.contour(x1, x2, f, [2], colors='k', linestyles='--')
# 绘制数据散点图
plt.scatter(X[0:20, 0], X[0:20, 1], cmap=plt.cm.Paired, marker='x')
plt.text(1, 1.8, s='支持向量', fontsize=10, color='gray',
ha='center', fontproperties=font)
plt.scatter(X[20:40, 0], X[20:40, 1], cmap=plt.cm.Paired, marker='o')
plt.text(-1.5, -0.5, s='支持向量', fontsize=10,
color='gray', ha='center', fontproperties=font)
# 绘制假设的异常点,毫无意义的代码,为了讲解用
plt.annotate(r'\({\frac{\xi_1}{||w||}}\)', xytext=(0.5, 2.8), xy=(-1.2, -2.2),
arrowprops=dict(arrowstyle="->", connectionstyle="arc3"), fontsize=20)
plt.scatter(-1.2, -2.2, marker='o', c='orange')
plt.annotate(r'\({\frac{\xi_2}{||w||}}\)', xytext=(1.8, 1.3), xy=(
1.2, -1.5), arrowprops=dict(arrowstyle="->", connectionstyle="arc3"), fontsize=20)
plt.scatter(1.2, -1.5, marker='o', c='orange')
plt.annotate(r'\({\frac{\xi_3}{||w||}}\)', xytext=(3, -0.2), xy=(
3, -2), arrowprops=dict(arrowstyle="->", connectionstyle="arc3"), fontsize=20)
plt.scatter(3, -2, marker='o', c='orange')
plt.xlim(x1_min-1, x1_max+1)
plt.ylim(x2_min-1, x2_max+1)
plt.show()
2.5 合页损失函数
线性支持向量机还有另外一种解释,就是最小化以下目标函数
其中被称为经验损失,既可以度量模型的好坏;是正则化项。
其中函数称为合页损失函数(hinge loss function),下标表示为
也就是说,如果点被正确分类,即函数间隔大于1,即,损失是0;否则损失是。但是对于上图的点3被正确分类但是损失不是0,因此合页损失函数对学习有更高的要求。
其实上述的目标函数等价于软间隔最大化的目标函数,即把看成,即上述的目标函数可以写成
如果取为,则
软间隔最大化的目标函数为
三、线性支持向量机流程
3.1 输入
有个样本的线性可分训练集,其中为维特征向量,为二元输出即值为或者。
3.2 输出
分离超平面的参数和以及分类决策函数
3.3 流程
- 构造约束优化问题为
- 使用SMO算法求出上式最小时对应的
- 计算为
- 找到所有的个支持向量,即满足的样本,通过计算出每个支持向量对应的,计算出这些所有的的平均值即为最终的。
- 求得分离超平面为
- 求得分类决策函数为
线性支持向量机的步骤和线性可分支持向量机的步骤大致相同,由于线性支持向量机使用了松弛因子,两者之间最大的不同点在于对值的考虑。
四、线性支持向量机优缺点
4.1 优点
- 处理了异常点导致的数据集线性不可分问题
4.2 缺点
- 只支持二分类问题,对于多分类问题需要使用OvR等其他辅助方法
- 只解决了异常点造成的非线性数据的处理,未真正解决非线性数据的分类问题
五、小结
线性支持向量机解决了最初的支持向量机的一个大问题,即无法处理原始问题,异常值会给模型的优化带来极大的麻烦,即会使得模型的最大间隔变窄,影响模型的性能。
虽然线性支持向量机支持这种异常值导致的数据集线性不可分,但是他并没有从本质上解决线性支持向量机无法处理线性不可分的问题,接下来的核函数的使用将让支持向量机变成分类器模型中的王者,即非线性支持向量机。