指标的重要性排序

 

原理:若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高。

过程:

(1)对每一颗决策树,选择相应的袋外数据(out of bag,OOB)​计算袋外数据误差,记为errOOB1【分类为错误率,回归为MSE】

(2)随机对袋外数据OOB所有样本的特征X加入噪声干扰(可以随机改变样本在特征X处的值),再次计算袋外数据误差,记为errOOB2。

​(3)假设森林中有N棵树,则特征X的重要性=∑(errOOB2-errOOB1)/N

 

posted on 2018-12-03 21:34  happygril3  阅读(636)  评论(0编辑  收藏  举报

导航