随机森林_理论

理论：从样本集（N个数据点）选出n个样本（有放回）建立分类器

重复m次，获得m个分类器

过程：

1. 样本的随机：从N个数据点中随机选择n个样本

2. 属性的随机：从所有属性中随机选择k个属性

3. 重复m次，，建立m颗决策树

4. m棵决策树形成随机森林，投票决定结果

参数：

n_estimators=10, //棵树
max_depth=None, //最大深度

max_features =auto//最大属性 max_features=sqrt(n_features).

min_samples_leaf=1, //最少分裂样本数

优点：

随机性的引入，不容易过拟合

随机性的引入，有很好的的抗噪声能力

高维度的数据，不用做特征选择

处理离散型，连续性，不用做特征规范

缺点：

决策树个数很多时，时间和空间会很大

对于属性值很多的字段，会对模型产生很大的影响

posted on 2018-10-25 11:31 happygril3 阅读(201) 评论(0) 编辑收藏举报

刷新页面返回顶部

happygril3