特征提取

类别可分离性判据
特征提取与选择的共同任务是找到一组对分类最有效的特征,有时需要一定的定量准则(或称判据)来衡量特征对分类系统(分类器)分类的有效性。换言之,在从高维的测量空间到低维的特征空间的映射变换中,存在多种可能性,到底哪一种映射变换对分类最有效,需要一个比较标准。此外,选出低维特征后,其组合的可能性也不是唯一的,故还需要一个比较准则来评定哪一种组合最有利于分类。
1.可分离性判据满足的条件
从理论上讲,可以用分类系统的错误概率作为判据,选取分类系统错误(概)率最小的一组特征作为最佳特征。但在实践中;由于类条件分布密度经常是未知的,且即使已知其分布但难于用计算机实现。因此,要研究实用的判据。研究证明,当它们满足以下条件时可作实用判据:
1)与分类的错误率的上界、下界有单调关系时,使判据最大的效果,一般其错误率也较小;
2)当各特征相互独立且有可加性时,可分离准则函数愈大,则类的分类程度愈大;
3)在加入新的特征后,判据并不减少;
 4)具有度量特性

2.类内类间距离
不同的类样本占有不同的特征空间的区域,只要这些区域不相交叠,它们就可以分开。所以,不同类样本区域间的距离愈大,其可分性就愈大。经常用样本间的平均距离作为特征提取的判据函数。重要的距离有Minkowski度量δM、欧氏距离δE、Chebychev距离δT、平方距离δQ和非线性度量δN等。在不考虑各类的概率分布时,不能确切地表达各类的交叠状况,且不能直接表达错误率,但它有计算方便和观念直观清晰等优点。为此,应考虑概率距离,如Bhattacharyya距离等。要计算概率距离,应先知道各类的先验概率分布。若从特征的后验概率分布来确定分类的有效性,可能得到最优分类的效果。研究表明:后验概率分布越集中,其错误率就越小;平缓的后验概率分布,如均匀分布,其分类的错误率就会越大。因而,利用不确定性最小的特征进行分类是最有利的,故可用信息熵来度量后验概率分布的集中程度。可用熵函数的期望值表征类别的分离程度,它就可以作为分类有效性的评价。

特征提取的方法

1. 基于欧氏距离测度的特征提取法
在D维特征空间选取d个特征,它应该使c个类别的各样本间的平均距离J(x)最大

2.基于概率距离判据的特征提取法
虽然基于欧氏距离测度判据的特征提取法有其优点,但它不能描述各类的概率分布,不能确切地表达各类交叠的状况,故不能直接与错误率相联系。因此,要考虑基于概率距离判据的特征提取法。研究证明,只有在概率密度有参数形式时才能把判据写成便于计算的解析式,故经常研究多维正态分布时的两类问题(c=2)。这时常用Jc、Jd两个判据。 

 

posted @ 2012-03-11 22:30  hailong  阅读(932)  评论(0编辑  收藏  举报