机器学习之特征提取
我们生活在信息时代—数据获取更加容易、存储更加便宜。在1991年、据称每两个月信息的存储量就翻一倍。不幸的是,机器能够读取的信息量的增加、理解并运用信息的速度远远跟不上信息增加的步伐。机器学习提供了一套自动分析大规模数据的工具。
机器学习是一种能够自动提高本身预测效果的算法。机器学习的一项基础是特征提取(feature selection)。通过去除不相关数据和冗余数据,能够增加机器学习效率和效果,是大规模机器学习中必不可少的步骤。
特征选取,作为机器学习中一个前处理步骤,在降维、去除不相关数据,增加学习精度和提高结果可理解性方面非常有效。1970年以来,特征选取一直是一个非常活跃的研究领域,在很多领域的数据的总量和特征数方面都变得越来越大,比如基因工程、文本分类、客户关系管理等。但最近几年,随着数据维数的增加,现有的很多方法遇到了很大挑战。
特征选取是在原始特种选取一个子集,使得在一定评价标准下特征空间得到最优化减小。特征选取算法大致分为两类,过滤模型(fileter model)和包裹模型(wrapper model)。过滤模型依赖训练数据的整体特征来选取一些特征,不涉及任何学习算法。包裹模型需要预先定义学习算法用于特征选取,利用计算结果评价并决定选取哪些特征。对于每个新的特征子集,包裹模型需要学习一种假设(或者分类器),现在的趋势是包裹模型能够找到更好的特征选择效果,但同时存在的趋势是计算量远远超过过滤方法。一般认为,当特征数非常多时,考虑到计算效率,往往采用过滤模型方法。在这两类方法中,根据具体的评价函数、以及特征子集空间划分方法进一步分为多种算法。
在众多过滤模型中,不同的特征选取算法可以进一步分为两大类,特征权重算法和子集搜索算法,依据是是否单独地评价特征的好坏或。下面讨论这些算法的优劣。
特征权重算法分别给特征赋予权重,根据与目标概念的相关性排序。以Relief算法为例,它以两个特征的差异作为相关性判断标准,无法解决数据冗余问体,这也是这类方法的通病。
子集搜索法通过一定的标准搜索代表性特征子集,达到搜索条件时得到最优子集。现在许多评价方法显示可以去除不相关和冗余特征,包括一致性度量和相关性度量。这些方法计算量太大。
特征选取的本质是聚类,为了找到快速的特征选择办法,其效果必须是有效识别数据不相关性和冗余性,同时要求计算复杂度要低。从这个意义上讲,特征选取落脚在找到特征之间合适的相关性度量方法,以及基于这种度量的可行特征选取步骤。
大致有两种方法计算两组随机变量的相关性,一种是基于经典的线性相关,另一种是基于信息论、测试理论等。真是世界的特征对象很多都是非线性的,线性化度量方法会导致失真,另一个限制是需要计算所有特征所包含的全部值。
基于相关性的特征选取(correlation based feature selection, CFS)是针对标识量的方法,不需要任何特殊的数据变化,仅要提供一种两组变量的相关性即可。CFS是一种高度自动化的算法、不需要用户给定任何门槛值、特征的个数,尽管很容易整合(如果需要)。
-------------背景补充--------------------
人工智能包括两种人工学习方式。第一种是学习人类精神过程,目标是寻找算法把人脑的思维过程转化为计算机语言;第二种方法源于实用计算的立场,并没有宏伟的目标,它主要是开发能够从过去数据中学习的程序,这样,看着像是数据处理的一个分支。机器学习基本上可以概括为人工学习的第二种方法,并在50年代诞生以来发展迅速。机器学习主要关心概念学习(conceptlearning)和分类学习(classification learning),后者是前者的通用化。
学习如何区分对象是智能的一个典型特征,在心理和计算机科学的研究中非常重视。确定一组对象共同的“核心(core)”特征是它们所属类型的代表,这种工作在人类或计算机聚焦注意力时大量用到。执行分类并能学习分类的能力给予人类和计算机强大的决策能力,而这些决策的效率很大程度上取决于分类的工作。
在机器学习中,上述分类工作一般指有监督学习。有监督学习是预先定义一些类,目标是把样品对象赋予不同的类。与之相对应的无监督学习,即不需要预先定义类,目标是确定哪些对象属于同一类。
对于典型的有监督机器学习任务,数据由一组样品或实例表示,每个实例通过一组测量、特征(feature)和标签来表示它的类。特征往往分类两类:离散型和数值型。
典型的机器学习算法要求两组样品:训练样品和测试样品,学习算法从样品数据形成概念描述,概念描述汪汪指学习算法从数据推断出的知识或模型,不同的算法中知识的表示形式不同,比如决策树、概率性总结等。
机器学习常用的算法有:C4.5,K-Means算法,支持向量机(SVM),Apriori算法,最大期望算法,PageRank,AdaBoost,kNN算法,朴素贝叶斯(NaïveBayes),,CART(分类与回归树),
参考资料
Hall M A. Correlation-based feature selection formachine learning [D]. The University of Waikato, 1999.
Yu L, Liu H. Feature selection for high dimensionaldata: A fast correlation based filter solution [C] // ICML. 2003, 3: 856-863.
http://blog.csdn.net/aladdina/article/details/4141177