RandomForestClassifier参数

【RandomForestClassifier】

参数

n_estimators : 随机森林中树的个数，即学习器的个数。
max_features : 划分叶子节点，选择的最大特征数目
n_features：在寻找最佳分割时要考虑的特征数量

max_depth : 树的最大深度，如果选择default=None，树就一致扩展，直到所有的叶子节点都是同一类样本，或者达到最小样本划分（min_samples_split）的数目。

min_samples_split : 最小样本划分的数目，就是样本的数目少于等于这个值，就不能继续划分当前节点了

min_samples_leaf : 叶子节点最少样本数，如果某叶子节点数目小于这个值，就会和兄弟节点一起被剪枝。

min_weight_fraction_leaf：叶子节点最小的样本权重和

max_leaf_nodes: 最大叶子节点数，默认是”None”，即不限制最大的叶子节点数

min_impurity_split：节点划分的最小不纯度，是结束树增长的一个阈值，如果不纯度超过这个阈值，那么该节点就会继续划分，否则不划分，成为一个叶子节点。

min_impurity_decrease : 最小不纯度减少的阈值，如果对该节点进行划分，使得不纯度的减少大于等于这个值，那么该节点就会划分，否则，不划分。

bootstrap :自助采样，又放回的采样，大量采样的结果就是初始样本的63.2%作为训练集。默认选择自助采样法。

oob_score : bool (default=False)
out-of-bag estimate，包外估计；是否选用包外样本（即bootstrap采样剩下的36.8%的样本）作为验证集，对训练结果进行验证，默认不采用。

n_jobs : 并行使用的进程数，默认1个，如果设置为-1，该值为总的核数。

random_state ：随机状态，默认由np.numpy生成

verbose：显示输出的一些参数，默认不输出。

属性(Attribute)

estimators_ :在RandomForestClassifier中，指的是决策树分类器的集合。

classes_:单个类别输出问题或者多类别输出问题中的类别标签数组。

n_classes_:单个类别输出问题或者多类别输出问题中的类别标签的个数。

n_features_ :数据集的特征个数，整型。

n_outputs_ :输出的个数，整型

feature_importances_ :The feature importances (the higher, the more important the feature)特征的权重

oob_score_ ：Score of the training dataset obtained using an out-of-bag estimate

oob_decision_function_ ：Decision function computed with out-of-bag estimate on the training set.

方法：

apply(X):Apply trees in the forest to X, return leaf indices.将森林中的树应用于X，返回叶索引

desicion_path(X):Return the decision path in the forest

fit(X,Y):在数据集（X,Y）上训练模型。

get_parms():获取模型参数

predict(X):预测数据集X的结果。

predict_log_proba(X):预测数据集X的对数概率。

predict_proba(X):预测数据集X的概率值。

score(X,Y):输出数据集（X,Y）在模型上的准确率。

posted @ 2018-08-09 18:22 夜尽天已明阅读(10923) 评论(0) 收藏举报

刷新页面返回顶部

夜尽天已明