关于随机森林进行多分类的一个思考

机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别输出的类别的众树而定，它有着许多的有点，能很好地处理多分类问题。

基本算法

原始训练集为N，应用bootstrap法有放回的随机抽取k个新的自助样本集，并由构建k棵决策树。每次未被抽到的样本组成了k个袋外数据；
设有M个变量，在每一棵树的每个节点处随机抽取m(m<M)个变量，从m中选择一个最具有分辨能力的变量，变量的阈值通过检查每一个分类点确定。
每棵树最大限度的生长，不做任何修剪（普通的决策树算法需要剪枝）。
将生成的多棵分类树组成随机森林，用随机森林分类器对新的数据进行判断与分类，其分类结果按决策树分类器的投票决定。

优点

对于很多种资料，它可以产生高准确度的分类器。
它可以处理大量的输入变量。
可以在决定类别时，评估变量的重要性。
它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度。
它提供一个实验方法，可以去侦测variable interactions。
对于不平衡的分类资料集来说，它可以平衡误差。
它计算各例中的近亲度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用。
它可以延伸应用在未标记的资料上，即使用非监督式聚类方法。也可以侦测偏离者和观看资料。
学习过程速度很快。
能够处理很高维度的数据，并且不用做特征选择。
创建随机森林的时候，对generlization error使用的是无偏估计。
容易扩展到并行方法

缺点

在某些噪音较大的分类或回归问题上会过拟合
对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，也就是说随机森林在这种数据上产生的属性权值是不可信的。

简要描述

随机森林，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵之间是没有关联的，在得到森林之后，当有一个新的输入样本进入的时候，让森林中的每一棵决策树分别进行判断，对其进行分类，最后预测为被选择的最多的那一类。
建立决策树的过程中，需要注意两点：采样与完全分裂。首先是两个随机采样的过程，random forest对输入的数据进行行列的采样；这里的采样，可能存在重复的样本。假设有N个样本，那么采样的样本也为N个，在训练的时候，每一棵树的输入样本都不是全部的样本，使得相对不容易出现over-fitting。然后进行列采样，从M个feature中选择m（m<M）个,之后就是对采样后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面所有的样本都指向同一个分类。一般很多的决策树算法都有一个很重要的步骤-剪枝，这里不需要这样做，因为之前的两个随机采样的过程保证了随机性，就算不减枝，也不会出现over-fitting。

需要注意的是： 每一棵决策树相对是较弱的，但是将多棵决策树结合起来就十分强大。可以这样比喻随机森林算法：每一棵决策树就是一个精通某一个窄领域的专家（从M个feature中选择m个让每一棵决策树进行学习），这样在随机森林中就有很多个精通不同领域的专家，对一个新的输入数据，可以从不同的角度去分析，最终由各方面的专家进行投票，得到最终结果。

RF、XGB、GBDT、LigthGBM 对缺失值的敏感性；

RF：不敏感，它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度

XGB：不敏感，算法中对缺失值进行了处理，对缺失特征值分裂时，左右节点都分裂，最终看哪个损失更小就分到哪边，所以对缺失值不敏感

GBDT：对缺失值没有对应处理，敏感

ligthGBM: 不敏感，和Xgboost是一样的。每次分割的时候，分别把缺失值放在左右两边各计算一次，然后比较两种情况的增益，择优录取

随机森林做多分类：

自己的理解：

多分类：根据基尼系数最小的分裂原则，看叶子节点中，占比最高的是哪一个类别就分为哪个类别，最后多棵树的分类结果进行投票（或许有误）

回归：均方误差损失最小化原则，就是叶子节点的均值作为回归值，最终多棵树再次求平均

关于XGBOOST多分类： 回归或者二分类，每次迭代训练一棵树。多分类，基于one vs all的方式训练多棵。

多分类问题会对每个类别生成一棵树，而分类或者回归，每次迭代生成一棵树，最后使用加法模型加权求和得到最终的结果。预测时一样，用加法模型计算最终的结果。

RF和GBDT的区别

相同点：

都是由多棵树组成，最终的结果都是由多棵树一起决定。

不同点：

集成学习：RF属于bagging思想，而GBDT是boosting思想
偏差-方差权衡：RF不断的降低模型的方差，而GBDT不断的降低模型的偏差
训练样本：RF每次迭代的样本是从全部训练集中有放回抽样形成的，而GBDT每次使用全部样本
并行性：RF的树可以并行生成，而GBDT只能顺序生成(需要等上一棵树完全生成)
最终结果：RF最终是多棵树进行多数表决（回归问题是取平均），而GBDT是加权融合
数据敏感性：RF对异常值不敏感，而GBDT对异常值比较敏感
泛化能力：RF不易过拟合，而GBDT容易过拟合

高频知识点

XGB与GBDT、随机森林等模型相比，有什么优缺点？
XGB为什么可以并行训练？
XGB用二阶泰勒展开的优势在哪？
XGB为了防止过拟合，进行了哪些设计？
XGB如何处理缺失值？
XGB如何分裂一个结点？如何选择特征？
XGB中一颗树停止生长的条件有哪些？
XGB叶子结点的权重有什么含义？如何计算？
训练一个XGB模型，经历了哪些过程？调参步骤是什么？
XGB如何给特征评分？

知识点：珍藏版 | 20道XGBoost面试题

参考：https://wustchuichui.github.io/2016/04/06/Random-forest/

posted @ 2020-11-18 12:27 静悟生慧阅读(6391) 评论(0) 编辑收藏举报

刷新页面返回顶部

静悟生慧