【机器学习与深度学习理论要点】17. 决策树分类，支持向量机

决策树分类

决策树分类和决策树回归思想基本相同，不同的是，决策树分类器输出为离散值。通过决策树进行分支处理，最后落到叶子节点上，使用投票的方式来决定预测结果属于哪个类别。

支持向量机

1）什么是支持向量机？

支持向量机是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化。所谓“支持向量机”，就是下图中虚线穿过的边缘点。支持向量机就对应着能将数据正确划分并且间隔最大的直线。
在这里插入图片描述

2）SVM寻找最优边界要求有哪些？

正确性：对大部分样本都可以正确划分类别；
安全性：支持向量，即离分类边界最近的样本之间的距离最远；
公平性：支持向量与分类边界的距离相等；
简单性：采用线性方程表示分类边界，也称分割超平面。如果在原始纬度中无法做线性划分，那么久通过升纬变换，在更高纬度空间寻求线性分割超平面，从低纬度空间到高纬度空间的变换，通过核函数进行。

3）什么是线性可分与线性不可分？

①线性可分

如果一组样本能使用一个线性函数分开，称这些数据样本是线性可分的。那么什么是线性函数呢？在二维空间中就是一条直线，在三维空间中就是一个平面，以此类推，如果不考虑空间维数，这样的线性函数统称为超平面。
在这里插入图片描述
如图中的A，B两个样本点，B点被预测为正类的确信度要大于A点，所以SVM的目标是寻找一个超平面，使得离超平面较近的异类点之间能有更大的间隔，即不必考虑所有样本点，只需让求得的超平面使得离它近的点间隔最大。

②线性不可分

线性不可分是指无法在样本空间下找到一个线性模型来进行划分类别。以下是一个一维线性不可分的示例，无法找到一条直线，分开两类点：

在这里插入图片描述

对于线性不可分问题，可以通过升维，将低纬度特征空间转换为高纬度特征空间，实现线性可分。
在这里插入图片描述

如何实现升维？这就需要用到核函数。

4）什么是核函数？

核函数用来对原函数进行升维和特征变换处理，使得低纬度线性不可分问题变为高纬度线性可分问题。常用的核函数有：

线性核函数。表达式： $k(x,y) = x^T·y+c$ ，线性核函数是原始输入控件的内积，即特征空间和输入控件的维度是一样的，参数较少，运算速度较快。一般情况下，在特征数量响度与样本数量非常多时，适合采用线性核函数。
多项式核函数。多项式核函数用增加告辞想特征的方法做升维变换，当多项式阶数高时复杂度会很高，其表达式为：
$k(x,y) = (ax^T·y+c)d$
其中，a表示调节参数，d表示最高次项次数，c为可选常数。
径向基核函数。径向基核函数具有很强的灵活性，应用很广泛。与多项式核函数相比，它的参数少，因此大多数情况下，都有比较好的性能。再不确定用哪种核函数时，可优先验证高斯核函数。

5）SVM特点？

①优点

应用广泛，可以解决高维、复杂特征下的分类问题；
具有较好的泛化能力；

②缺点

当样本很多时，效率并不是很高；
对缺失数据敏感。

posted @ 2022-08-06 18:05 野哥李阅读(120) 评论(0) 收藏举报来源

刷新页面返回顶部

【机器学习与深度学习理论要点】17. 决策树分类，支持向量机

公告