也谈Ensemble Methods做特征选择

特征处理

特征是对象的表达，模式识别中处理特征的方法可以分为两类：

1 特征选择

特征选择就是在原始特征集合中，挑选出一些最具有代表性、可分性最好的特征子集——典型的组合优化问题、NP问题。

从统计观点——变量的选择

特征选择：1)可以降低特征空间维数；2)特征本身常常具有明确的意义。

搜索策略

特征选择的方法大体可分为两类

Filter方法
- 通常给出一个独立于分类器的准则，来评价所选择的特征子集
  - Fisher判别准则——根据每个特征在两类的平均距离和方差，来评价它的分类能力
  - 互信息量准则——考虑特征变量和目标值的互信息量
- 在所有可能的特征子集中，搜索最优的特征子集
Wrapper方法
- 将特征选择和分类器结合在一起，即特征子集的好坏标准是由分类器决定的
  - 最近邻——OBLIVION
  - SVM——SVM-RFE(Recursive Feature Elimination)
  - Fisher判别——FOM(Fisher Optimization Model)
  - AdaBoost(后面有详述)
- 在学习过程汇总表现优异的特征子集会被选中

2 特征变换

特征变换就是希望通过变换，消除原始特征之间的相关或减少冗余，得到新的特征。

从统计观点——减少变量之间的相关性，用少量新变量来尽可能反映样本信息

从几何观点——通过变换得到新的表达空间，使得数据可分性更好

AdaBoost本质

基于AdaBoost的特征选择

posted on 2012-07-02 18:01 小唯THU 阅读(1598) 评论(0) 编辑收藏举报

刷新页面返回顶部