特性选择、特征抽取阅读记录

关联规则模型

关联规则模型的特点:就是从大量随机发生的并发时间中,找到强关联的现象,使得在某事件发生的前提下,另一事件的发生具有很高的概率,并且是一种具有业务意义的强规则。

关联规则:Apriori算法、FP树频集算法。

一个关联规则是形如X=》Y的蕴含式,这里X属于I,Y属于I,并且X与Y的交集为空集。

支持度

置信度

Apriori算法:逐层迭代找出频繁项集。缺点就是I/O开销大。

FP树

Lift:提示给定的前件和后件随机同时出现的规则的强度。若Lift<1的规则都不能显示一个真正的内在并发现象。

----------------------------------------------------

连续变量离散化

 方法:分箱(等频划分、等宽划分)、直方图分析、基于熵的离散化等。

数据规范化:

 方法:要求在范围(-1.0~1.0)之间,最小-最大规范化,Z-score规范化,小数定标规范化等。

 

等频划分:导致把同类别的点分到不同的区间

等宽划分:不均匀

=》改进:在使用等宽法之前,首先进行异常侦测,对于等频法,先将特征值进行分箱,然后对各个相邻分箱的边界值进行调整,使得相同的值可以被分入同一个箱中。

 

划分聚类算法:K-均值

层次聚类算法:组平均(凝聚、分裂)

 

BIRCH算法

CURE算法(划分,局部聚类思想)

密度聚类算法

----------------------------------------------------

特性选择:选择最小的属性子集,去除不相关和冗余的属性。

   线性相关算法(PearSon算法、Spearman秩相关)

   相关因子SRCF算法

   最小描述长度MDL算法

 

特征抽取:属性降维

   主成分分析法 PCA

   因子分析法

   非负矩阵因子分解NMF法

PCA算法

  PCA问题其实是一个基的变换,使得变换后的数据有最大方差。方差的大小描述的是一个变量的信息量。若一个模型的方差大,就说明该模型不稳定了,但对于我们用于机器学习的数据(主要是训练数据),方差大才有意义,不然输入的数据都是同一个点,那方差就为0,这样输入的多个数据就同等于一个数据了。

  PCA算法核心,实际上是维度旋转。通过维度旋转来重新定义维度(变量),维度旋转的原则是尽可能与主要数据的特征保持同向,以达到减少维度(变量)的目的。

 

因子分析方法:

   从分析多个原始变量的相关关系入手,主要是研究多个变量的相关矩阵,找出支配相关关系的有限个潜在变量,达到用少数变量来解释复杂问题的目的。

  因子分析主要是研究解释原始变量之间的关系,而PCA重点在综合原始变量的信息。

 

NMF

  NMF是一种特征抽取算法,它常用于属性很多且属性模糊或有很弱的可预测性的数据集。通过合并属性,NMF可产生有意义的模式或主题。

  NMF算法:压缩一个数据矩阵V为两个低阶矩阵W和H的乘积,以近似等于WxH。NMF算法使用交互式过程来修改矩阵W和H的初始值,以便这个乘积接近矩阵V,这个交互式过程当近似值差聚集或达到一个给定的迭代次数时终止。NMF算法提供了基于简单迭代的求解W、H的方法,求解方法具有收敛速度快,左右非负矩阵存储空间小的特点。它能将高维的数据矩阵降维处理,适合处理大规模数据,利用NMF进行文本、图像大规模数据的分析方法,较传统的处理法速度更快、更便捷。

  即每一个特征是原来属性集的一个线性合并,这些线性合并的系数是非负的,即V=WxH。

 

MDL算法:

   对于一个给定的数据集D(data set),为了最大限度的节省数据集的存储空间,我们试图从几个可能的模型(或程序,或算法)中寻找一个模型Mi(1<=i<=n),Mi最大限度的提取数据集D中所有的规律,并将其进行数据压缩,然后将模型Mi本身连带压缩后的数据集Ci一同存储起来,其总存储大小为Si(size)。由于不同的模型对D的压缩率不同,一般来说D的压缩率越高模型的复杂度越高,将最小的Si称为D的最小描述长度。最小描述长度的原理就是要选择总描述长度最小的模型Mi。

   将MDL原理应用于特性选择的方法:MDL算法将D中每一个属性看做是目标属性(如分类属性)的简单预测模型,使用其相应的MDL度量对这些单一预测模型进行比较和评分。使用MDL算法,模型选择问题变成了数据通信问题。属性评分使用两部分代码来传送数据,前一部分传送模型,模型参数是与每个预测值相关联的目标概率,后一部分传送的是使用该模型后预测错误的原始数据。

   即 Si(MODELi,D) = S(MODELi) + S(Ci)

   Si(MODELi,D)为数据集D上应用第i个属性对目标属性建立简单预测模型后得到的总大小。

   S(MODELi) 为应用第i个属性对目标属性建立简单预测模型(MODELi)的大小。

   S(Ci) 是对第i个属性数据应用MODELi后,所有预测错误的原数据大小总和。

按MDL评分排序,依次得到不同属性相对于目标属性的特征评分,使用在评分阶段得到的排名靠前的一个特性组合进行分类或预测试验,从中得到一个最佳特性组合。

----------------------------------------------

SVM

  很好的解决小样本、非线性及高维数据识别分类问题。

  SVM也称最大边缘区分类器。

  SVM给出是全局最优解,而如神经网络和决策树分类等算法通常给出的是一个局部最优。

 

非线性支持向量机,从技术上就是利用核函数的支持,将输入样本空间映射到高维特征空间。

 

人工神经网络:局部最优解的分类和预测算法。 信息感知器

 

posted @ 2016-08-16 10:05  跳出  阅读(498)  评论(0编辑  收藏  举报