摘要:
本文关注当数据集包含大量样本时的特征选择算法,主要使用梯度增强回归树实现,设计的模型称为梯度增强特征选择 GBFS。在梯度增强框架的基础上,采用贪心 CART 算法构建树。CBFS 对新特征产生的分割将受到惩罚,但如果是重用以前选择的特征就可以避免这个惩罚。当 GBFS 学习回归树的集合时,可以自然地发现特征之间的非线性相互作用。与随机森林的 FS 相比,GBFS 能够实现将特征选择和分类同时进行优化。实验环节在几个不同难度和大小的真实世界数据集上进行评估,结果表明 GBFS 优于或相当于随机森林特征选择的准确性和特征选择的性能,同时可以有效地处理特征间依赖关系。 阅读全文