某次使用随机森林的总结

首先这个模型的使用没有问题；
模型的评价也没有问题；

但是这个模型不能被工业化；

原因是数据本身有很大问题，典型的学术型数据；

问题如下：
1. 误踩油门是刻意为之，因为每次基本都踩到底了，而实际驾驶过程中不会踩到底
2. 数据样本在误踩油门时加速踏板开度在100左右，而正常时刻加速踏板开度基本都很小，而实际驾驶过程中，正常驾驶时油门开度也会很大，不会一直很小
--实验数据和工业上的数据差别巨大

这样的数据造成的结果是：
1. 加速踏板开度重要性非常高，
2. 加速踏板开度基本就完全决定了label
3. 其他特征基本没用

在这种情况下，选择随机森林或许是个不错的选择，至少存在好于其他模型的可能性，
因为随机森林随机选择特征时，可能避开加速踏板开度这个重要特征，而关注到其他特征，使得其他特征起到作用；
// 这里有个小技巧，为了使得基学习器更多的避开加速踏板这个重要特征，可将 max_feature 设置的小一点，特别是特征较少时，增加避开的可能性
// 也可以树的棵树少一点，也是为了降低以加速踏板为主要特征的基学习器的投票个数

总结:
1. 数据要尽可能真实
2. 如果从数据或者模型看，某个特征在很大程度上决定了 label，而真实情况是这个特征根本不能决定 label，此时可选择随机森林模型，泛化能力可能会好于其他模型
// 特征较少时，试试这样：树的棵树小于特征个数
// 不一定能提升泛化能力，但是至少不会被虚假的评价指标所蒙蔽

发表于 2021-01-22 17:23 努力的孔子阅读(190) 评论(0) 收藏举报

刷新页面返回顶部

某次使用随机森林的总结

导航