机器学习与数据挖掘期末考试复习重点整理
分类:
– 有类别标记信息, 因此是一种监督学习
– 根据训练样本获得分类器,然后把每个数据归结到某个已知的类,进而也可以预测未来数据的归类。
聚类:
– 无类别标记, 因此是一种无监督学习
– 无类别标记样本,根据信息相似度原则进行聚类,通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的关系
聚类方法:
划分方法 - (分割类型)
K-均值K-Means
顺序领导者方法
基于模型的方法
基于密度的方法
层次方法(Hierarchical Methods)
K-means思想:
确定K的值;
随机选择K个样本点,每个样本点初始地代表一个类的平均值或簇中心;
对剩余每个数据样本点,根据其到类中心的距离,被划分到最近的类;
重新计算每个簇的平均值来更新每个簇中心;
重复这个过程,直到所有样本都不能再分配为止;
返回K中心。
K-means优点:
1、简单,适用于常规不相交的簇。
2、假设数据是呈球形分布,实际任务中很少有这种情况
3、收敛相对较快。
4、相对有效和可扩展 O(t·k·n)
t:迭代; k:中心数; n:数据点数
K-means 缺陷
1、需要提前指定 K 的值。
很难确定,关于数据集的先验知识(如数据集可以分成多少个部分)可能会有所帮助。
2、可能会收敛到局部最优点。
在实践中,尝试不同的初始中心点, 从中挑选最好的结果。
3、可能对噪声数据和异常值敏感。
因为簇的中心是取平均,因此聚类簇很远的地方的噪声会导致簇的中心点偏移(这表明均值并不是一种稳健的统计量)
在k-means聚类前, 通过预处理移除噪声点往往非常有用
聚类后, 对聚类结果进行一些后处理效果也很好, 如删除过小的聚簇, 或将彼此接近的一些聚簇合并成一个更大的聚簇
4、不适合非凸不规则形状的簇,K均值很难处理非球状的簇和不同大小的簇。
DBSCAN基于密度 优缺点:
1、因为DBSCAN是基于密度定义的, 抗噪声能力强, 并且能够处理任意形状和大小的簇。即能发现使用K均值所不能发现的簇。但是当簇密度变化太大时, 可能会出现问题。
2、对于高维数据, 其密度定义困难。K均值可以用于稀疏的高维数据。
3、当近邻计算需要计算所有点对的邻近度时, DBSCAN的开销很大。
高斯混合模型与k-means:
共同点:
1、可用于聚类的算法
2、都需要指定k的值
3、都需要使用EM 算法求解
4、往往只能收敛于局部最优
GMM比k-means的优点是:
1、可以给出一个样本属于一类的概率是多少,而不是绝对的属于哪一类
2、可以用于生成新的样本点
3、多维的时候,高斯混合模型需要计算协方差,考察不同维度时间的约束关系
场景如下:
假设原样本有两类,True和False,其中:
1.总共有T个类别为True的样本;
2.总共有F个类别为False的样本;
分类预测后:
1.总共有TT个类别为True的样本被系统判为True,FT个类别为True的样本被系统判为False,则TT+FT=T
2.总共有FF个类别为False的样本被系统判为False,TF个类别为False的样本被系统判为True,则FF+TF=F
l 指标计算:
l 精确度=TT/(TT+TF)--判断正样本中真正正样本的比例
l 准确率=(TT+FF)/(T+F)--判断正确的比重
l 召回率=TT/(TT+FT)--正确判断正例的比重
l 漏报率=FT/(TT+FT)--多少个正例被漏判了
l 虚警率=TF/(TT+TF)--反映被判为正例样本中,有多少个是负例
•前向传播-在前馈神经网络中
•从输入 x 到输出 y, 信息通过网络前向传播
•在训练阶段, 前向传播可以继续向前, 直到它产生标量代价函数C(θ)
•反向传播
•允许来自代价函数的信息然后通过网络反向流动, 以便计算梯度
•可以被应用到任何函数
p 卷积: 图像中不同数据窗口的数据和卷积核(一个滤波矩阵)作内积
的操作叫做卷积。其计算过程又称为滤波(filter),本质是提取图像
不同频段的特征。
p 卷积核:具有的一个属性就是局部性。即它只关注局部特征,局部的
程度取决于卷积核的大小。本质就是比较图像邻近像素的相似性。所
以原图像与卷积核的卷积,其实对频域信息进行选择。比如,图像中
的边缘和轮廓属于是高频信息,图像中某区域强度的综合考量属于低
频信息
K-NN
n 对未知记录分类:
n 计算与各训练记录的距离
n 找出 k 个最近邻
n 使用最近邻的类标号决定未知记录的类标号 (例如, 多数表决)
有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,就开始跟训练数据里的每个点求距离,然后挑离这个训练数据最近的K个点看看这几个点属于什么类型,然后用少数服从多数的原则,给新数据归类。
k-NN的特点
n1、 是一种基于实例的学习
n 需要一个邻近性度量来确定实例间的相似性或距离
n 2、不需要建立模型,但分类一个测试样例开销很大
n 需要计算域所有训练实例之间的距离
n 3、基于局部信息进行预测,对噪声非常敏感
n 4、最近邻分类器可以生成任意形状的决策边界
n 决策树和基于规则的分类器通常是直线决策边界
n 5、需要适当的邻近性度量和数据预处理
n 防止邻近性度量被某个属性左右
直接方法: 顺序覆盖或序贯覆盖(sequential covering)
n 在训练集上每学到一条规则, 就将该规则覆盖的训练样例去除, 然后以剩下
的训练样例组成训练集, 重复上述过程
SVM
SVM 是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。
当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;
当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;
当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。
当样本在原始空间线性不可分时,可将样本空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。而引入这样的映射后,所要求解的对偶问题的求解中,无需求解真正的映射函数,而只需要知道核函数。核函数的定义:K(x,y)=φ(x)·φ(y),即在特征空间的内积等于它们在原始样本空间中通过核函数 K 计算的结果。一方面数据变成了高维空间中线性可分的数据,另一方面不需要求解具体的映射函数,只需要给定具体的核函数即可,这样使得求解的难度大大降低。
维灾难(curse of dimensionality)
随着数据维度的增加,许多数据分析变得非常困难。特殊地,随着维度增加,数据在它所占据的空间中越来越稀疏
对于分类,这可能意味没有足够的数据对象来创建模型
对于聚类,点之间的密度和距离的定义(对聚类是至关重要的)变得不太有意义
结果: 对于高维数据, 许多分类和聚类算法(以及其他数据分析算法)都有麻烦——分类准确率降低,聚类质量下降
维归约目的
1、避免维灾难
2、降低数据挖掘算法的时间和内存消耗
3、使数据更容易可视化
4、能删除不相关的特征并降低噪声
PCA是无监督学习, 不考虑标记信息
目标是找到捕获数据中最大变化的投影
目的:数据降维、去噪,提取最有价值的信息(基于方差)
思想:将原始的高维(如维度为N)数据向一个较低维度(如维度为K)的空间投影,同时使得数据之间的区分度变大(找一个最好的轴,它的方差越大,使数据能分的越开)。这K维空间的每一个维度的基向量(坐标)就是一个主成分
把数据变换到一组新的基上,得到了新的特征的表达
问题:如何找到这K个主成分?
思路:使用方差信息,若在一个方向上发现数据分布的方差越大,则说明该投影方向越能体现数据中的主要信息。该投影方向即应当是一个主成分
LDA的目标是在保留尽可能多的类区分信息的同时进行降维.
PCA,它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上,映射时没有利用任何数据内部的分类信息。因此,虽然做了PCA后,整组数据在表示上更加方便(降低了维数并将信息损失降到最低),但在分类上也许会变得更加困难;LDA,在增加了分类信息之后,两组输入映射到了另外一个坐标轴上,有了这样一个映射,两组数据之间的就变得更易区分了(在低维上就可以区分,减少了很大的运算量)。
所以PCA和LDA虽然都用到数据降维的思想,但是监督方式不一样,目的也不一样。PCA是为了去除原始数据集中冗余的维度,让投影子空间的各个维度的方差尽可能大,也就是熵尽可能大。LDA是通过数据降维找到那些具有discriminative的维度,使得原始数据在这些维度上的投影,不同类别尽可能区分开来。
LDA的原理是,将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近。
决策树的生成由两个阶段组成
• 决策树构建
• 开始时,所有的训练样本都在根节点
• 递归的通过选定的属性,来划分样本 (必须是离散值)
• 树剪枝
• 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检
测和剪去这种分枝,防止过拟合。因为在决策树学习中,为了尽可能正确的分类训练样本,结点划分过程将不断重复,有时会造成决策树分枝过多,,训练数据拟合的太好,训练样本把自身的一些特点当做所有数据都有的一般性质而导致过拟合。
• 当决策树很小时,训练和检验误差都很大,这种情况称为模型拟合不足。出
现拟合不足的原因是模型尚未学习到数据的真实结构。
• 随着决策树中结点数的增加,模型的训练误差和检验误差都会随之下降。
• 当树的规模变得太大时,即使训练误差还在继续降低,但是检验误差开始增
大,导致模型过分拟合
ID3 使用信息增益,它偏向于取值数目较多的属性
C4.5 对连续属性离散化,算法产生的分类规则易于理解,准确率高
但效率低,因为构造过程中许多次对数据集进行顺序扫描和排序
克服了ID3的不足,在树构造过程中进行剪枝
CART 生成的决策树分支较大,规模大
我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。Ent(D)越小,则D 的纯度越高。
信息增益越大,则意味着使用属性a来进行划分所获得的纯度提升越大
基尼指数Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,因此Gini(D)越小,则数据集D的纯度越高