转载:随机森林算法梳理
任务一 随机森林算法梳理】
1. 集成学习概念
2. 个体学习器概念
3. boosting bagging
4. 结合策略(平均法,投票法,学习法)
5. 随机森林思想
6. 随机森林的推广
7. 优缺点
8. sklearn参数
2 9.应用场景
【参考资料】 《西瓜书》、《统计学习方法》、台大《机器学习技法》、吴恩达《机器学习》等
转自:https://liken95.github.io/
一、集成学习概念
在日常生活中我们会遇到这样的情况:对一个决策问题,如果一个人拿不定主意,可以组织多个人来集体决策。如果要判断一个病人是否患有某种疑难疾病,可以组织一批医生来会诊。会诊的做法是让每个医生做一个判断,然后收集他们的判断结果进行投票协商,得票最多的那个判断结果作为最终的结果。这种思想在机器学习领域的应用就是集成学习算法。
其结构如下图所示:
也就是说,我们需要解决两个问题:
-
如何得到若干个个体学习器
-
应采用什么样的结合策略
二、 个体学习器概念
- 之前讲到,集成学习的一个问题就是如何得到若干个个体学习器,那么我们两种选择。
-
同类型(如全是决策树,或者全是神经网络)的个体学习器
-
不同类型的个体学习器。比如我们有一个分类问题,对训练集采用支持向量机个体学习器、逻辑回归个体学习器和朴素贝叶斯个体学习器来学习,再通过某种结合策略来确定最终的分类强学习器。
- 同类型个体学习器按照个体学习器之间是否存在依赖关系可以分为两类:
- 个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法是boosting系列算法,
- 个体学习器之间不存在强依赖关系,一系列个体学习器可以并行生成,代表算法是bagging和随机森林(Random Forest)系列算法。
三、 boosting、bagging
1.boostrap概述
boostrap是一种有放回抽样。
例如,如果有10个样本,Bootstrap抽样从它们中随机的抽取出10个,下面两种情况都是可能发生的:
1 1 1 1 1 1 1 1 1 1
1 2 3 4 5 6 7 8 9 10
2.Bagging(Bootstrap Aggregating)概述
Bagging算法对训练样本集进行多次Bootstrap抽样,每次抽样形成的数据集训练一个弱学习器模型,得到多个独立的弱学习器(对于分类问题,称为弱分类器)。结合策略也比较简单,对于分类问题,通常使用简单投票法,得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题,通常使用简单平均法,对T个弱学习器得到的回归结果进行算术平均得到最终的模型输出。
训练流程为:
1
|
循环,对i = 1, ..., T
|
如果弱学习器是决策树,这种方法就是随机森林。
3.boosting概述
Boost的含义是增强,Boosting方法就是从弱学习算法出发,在前一个学习器的基础上反复学习,得到一系列弱分类器,然后组合弱分类器,得到一个强分类器。Boosting方法在学习过程中通过改变训练数据的权值分布,针对不同的数据分布调用弱学习算法得到一系列弱分类器。
各个体学习器之间是强相关的,即下一个学习器的学习偏好受之前学习器的影响很大,因为之前的个体学习器的学习情况会通过权值来影响下一次训练样本的分布情况。这种强相关性决定了AdaBoost只能进行串行运算,而且通过AdaBoost算法的推导可以知道该算法只能用于二分类任务。
四、 结合策略(平均法,投票法,学习法)
在上面几节里面我们主要关注于如何得到若干个个体学习器,本节来介绍结合策略。
- 平均法
- 简单平均法(simple averaging)
- 加权平均法
- 投票法则有三种方法:
- 相对多数投票法
即少数服从多数
- 绝对多数投票法
在相对多数投票法的基础上,不光要求获得最高票,还要求票过半数。否则会拒绝预测。
- 加权投票法
每个弱学习器的分类票数要乘以一个权重,最终将各个类别的加权票数求和,最大的值对应的类别为最终类别。
- 学习法
上两节的方法都是对弱学习器的结果做平均或者投票,相对比较简单,但是可能学习误差较大,于是就有了学习法这种方法,对于学习法,代表方法是stacking,当使用stacking的结合策略时, 我们不是对弱学习器的结果做简单的逻辑处理,而是再加上一层学习器,也就是说,我们将训练集弱学习器的学习结果作为输入,将训练集的输出作为输出,重新训练一个学习器来得到最终结果。
在这种情况下,我们将弱学习器称为初级学习器,将用于结合的学习器称为次级学习器。对于测试集,我们首先用初级学习器预测一次,得到次级学习器的输入样本,再用次级学习器预测一次,得到最终的预测结果。
五、 随机森林思想
随机森林是bagging算法的进化版,改进的部分在于:
-
rf使用了cart决策树作为弱学习器
-
对于普通的决策树,我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分,但是RF通过随机选择节点上的一部分样本特征,这个数字小于n,假设为nsub,然后在这些随机选择的nsub个样本特征中,选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。如果nsub=n,则此时RF的CART决策树和普通的CART决策树没有区别。nsub越小,则模型约健壮,当然此时对于训练集的拟合程度会变差。也就是说nsub越小,模型的方差会减小,但是偏倚会增大。在实际案例中,一般会通过交叉验证调参获取一个合适的nsub的值。
过程如下:
1
|
1. 构建多个数据集
|
六、 随机森林的推广
由于RF在实际应用中的良好特性,基于RF,有很多变种算法,应用也很广泛,不光可以用于分类回归,还可以用于特征转换,异常点检测等。下面对于这些RF家族的算法中有代表性的做一个总结。
4.1 extra trees
extra trees是RF的一个变种, 原理几乎和RF一模一样,有区别有:
-
对于每个决策树的训练集,RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集,而extra trees一般不采用随机采样,即每个决策树采用原始训练集。
-
在选定了划分特征后,RF的决策树会基于基尼系数,均方差之类的原则,选择一个最优的特征值划分点,这和传统的决策树相同。但是extra trees比较的激进,他会随机的选择一个特征值来划分决策树。
从第二点可以看出,由于随机选择了特征值的划分点位,而不是最优点位,这样会导致生成的决策树的规模一般会大于RF所生成的决策树。也就是说,模型的方差相对于RF进一步减少,但是偏倚相对于RF进一步增大。在某些时候,extra trees的泛化能力比RF更好。
4.2 Totally Random Trees Embedding
Totally Random Trees Embedding(以下简称 TRTE)是一种非监督学习的数据转化方法。它将低维的数据集映射到高维,从而让映射到高维的数据更好的运用于分类回归模型。我们知道,在支持向量机中运用了核方法来将低维的数据集映射到高维,此处TRTE提供了另外一种方法。
TRTE在数据转化的过程也使用了类似于RF的方法,建立T个决策树来拟合数据。当决策树建立完毕以后,数据集里的每个数据在T个决策树中叶子节点的位置也定下来了。比如我们有3颗决策树,每个决策树有5个叶子节点,某个数据特征x划分到第一个决策树的第2个叶子节点,第二个决策树的第3个叶子节点,第三个决策树的第5个叶子节点。则x映射后的特征编码为(0,1,0,0,0, 0,0,1,0,0, 0,0,0,0,1), 有15维的高维特征。这里特征维度之间加上空格是为了强调三颗决策树各自的子编码。
映射到高维特征后,可以继续使用监督学习的各种分类回归算法了。
4.3 Isolation Forest
Isolation Forest(以下简称IForest)是一种异常点检测的方法。它也使用了类似于RF的方法来检测异常点。
对于在T个决策树的样本集,IForest也会对训练集进行随机采样,但是采样个数不需要和RF一样,对于RF,需要采样到采样集样本个数等于训练集个数。但是IForest不需要采样这么多,一般来说,采样个数要远远小于训练集个数?为什么呢?因为我们的目的是异常点检测,只需要部分的样本我们一般就可以将异常点区别出来了。
对于每一个决策树的建立, IForest采用随机选择一个划分特征,对划分特征随机选择一个划分阈值。这点也和RF不同。
另外,IForest一般会选择一个比较小的最大决策树深度max_depth,原因同样本采集,用少量的异常点检测一般不需要这么大规模的决策树。
对于异常点的判断,则是将测试样本点x拟合到T颗决策树。计算在每颗决策树上该样本的叶子节点的深度ht(x),从而可以计算出平均高度h(x)。此时我们用下面的公式计算样本点x的异常概率:
s(x,m)=2−h(x)c(m)
其中,m为样本个数。
c(m)的表达式为:
c(m)=2ln(m−1)+ξ−2m−1m,ξ为欧拉常数
s(x,m)的取值范围是[0,1],取值越接近于1,则是异常点的概率也越大。
七、 优缺点
- RF的主要优点有:
-
训练可以高度并行化,对于大数据时代的大样本训练速度有优势。个人觉得这是的最主要的优点。
-
由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。
-
在训练后,可以给出各个特征对于输出的重要性
-
由于采用了随机采样,训练出的模型的方差小,泛化能力强。
-
相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。
-
对部分特征缺失不敏感。
- RF的主要缺点有:
-
在某些噪音比较大的样本集上,RF模型容易陷入过拟合。
-
取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。
八、 sklearn参数2
下面我们再来看RF的决策树参数,它要调参的参数基本和GBDT相同,如下:
1) RF划分时考虑的最大特征数max_features: 可以使用很多种类型的值,默认是”auto”,意味着划分时最多考虑N−−√N个特征;如果是”log2”意味着划分时最多考虑log2N个特征;如果是”sqrt”或者”auto”意味着划分时最多考虑N−−√N个特征。如果是整数,代表考虑的特征绝对数。如果是浮点数,代表考虑特征百分比,即考虑(百分比xN)取整后的特征数。其中N为样本总特征数。一般我们用默认的”auto”就可以了,如果特征数非常多,我们可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数,以控制决策树的生成时间。
1) 决策树最大深度max_depth: 默认可以不输入,如果不输入的话,决策树在建立子树的时候不会限制子树的深度。一般来说,数据少或者特征少的时候可以不管这个值。如果模型样本量多,特征也多的情况下,推荐限制这个最大深度,具体的取值取决于数据的分布。常用的可以取值10-100之间。
2) 内部节点再划分所需最小样本数min_samples_split: 这个值限制了子树继续划分的条件,如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分。 默认是2.如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。
3) 叶子节点最少样本数min_samples_leaf: 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。 默认是1,可以输入最少的样本数的整数,或者最少样本数占样本总数的百分比。如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。
5)叶子节点最小的样本权重和min_weight_fraction_leaf:这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起被剪枝。 默认是0,就是不考虑权重问题。一般来说,如果我们有较多样本有缺失值,或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。
6) 最大叶子节点数max_leaf_nodes: 通过限制最大叶子节点数,可以防止过拟合,默认是”None”,即不限制最大的叶子节点数。如果加了限制,算法会建立在最大叶子节点数内最优的决策树。如果特征不多,可以不考虑这个值,但是如果特征分成多的话,可以加以限制,具体的值可以通过交叉验证得到。
7) 节点划分最小不纯度min_impurity_split: 这个值限制了决策树的增长,如果某节点的不纯度(基于基尼系数,均方差)小于这个阈值,则该节点不再生成子节点。即为叶子节点 。一般不推荐改动默认值1e-7。
上面决策树参数中最重要的包括最大特征数max_features, 最大深度max_depth, 内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf。
九、应用场景
数据维度相对低(几十维),同时对准确性有较高要求时。
因为不需要很多参数调整就可以达到不错的效果,基本上不知道用什么方法的时候都可以先试一下随机森林。
参考资料:
http://www.cnblogs.com/pinard/p/6131423.html
https://blog.csdn.net/qq_36330643/article/details/77621232
http://chrer.com/2018/07/24/集成学习常见模型/
http://www.tensorinfinity.com/upload/files/20190121/1548062905762703.pdf