Fork me on GitHub

九. 随机森林

随机森林

1. 集成模型和它的优势

什么是集成模型

对于几乎所有的分类问题(图像识别除外,因为对于图像识别问题,目前深度学习是标配),集成模型很多时候是我们的首选。比如构建一个评分卡系统,业界的标配是GBDT或者XGBoost等集成模型,主

要因为它的效果确实好,而且稳定。还有一点是这些模型的可解释性也很好,不像深度学习模型就像个黑盒子。

可解释性对于工业界应用来说尤其重要。 比如一个模型出错了,我们希望第一时间能够找出问题的根源。但如果模型的可解释性比较差,则很难及时把问题定位出来。举个例子,金融类的应用是直接跟

金钱挂钩的,一旦出了问题之后后果不堪设想。所以模型上线之前需要做大量的测试,而且提前要清楚地了解模型里的每个细节以及可能出错之后带来的后果。

那为什么集成模型的可解释性好呢? 这个其实不难理解,因为随机森林或者提升树模型其实是基于决策树的,而且我们知道决策树模型的可解释性本来就很好。集成模型可以简单理解成决策树的集合!

除了工业界应用,在各类数据竞赛上,集成模型也扮演着极其重要的角色。对于大部分的竞赛,使用集成模型是让你通向第一名的最快的捷径。当然,也离不开特征工程的部分。

集成模型是实际工作中可以采用的最有效的方法之一,如果对模型的选择没有好的想法,选择集成模型至少不会让你出错;

集成模型的优势

适用场景:需要一个新的技术方案,一个人做决策 VS 互相讨论并做决策

小时候我们应该都听过这样的一句话 - “三个臭皮匠顶个诸葛亮"。其实也从侧面反映了集成模型的思想,多个人一起决策要优于一个人单干。当然也有可能存在一些特别牛逼的人要远远胜于其他所有人的

智慧之和,但毕竟是特例。至少多听取不同的建议会让自己少犯一些愚蠢的错误。

构建集成模型

至于构建集成模型,通常有两种方法,一种叫Bagging,另外一种叫Boosting,这是两种完全不一样的方法。本文主要来是第一种(随机森林是Bagging的一种方法),在之后文章中会有Boosting的方法。

集成模型的两大类
  • Bagging
    • 随机森林
  • Boosting
    • GBDT,XGBoost
随机森林是经典的Bagging模型,等同于同时训练了很多棵决策树,并同时用这些决策树来做决策。具体的构造和预测的大致过程如下:
每个模型是互相独立的,最终预测结果是由预测1-预测4投票决定的;

2. 从方差角度分析其稳定性

方差和稳定性

在训练模型时,我们的目的是要训练出泛化能力强的模型,这一点我们已经在之前的章节里讲过了。为了一个模型具有较强的泛化能力,我们需要解决模型的过拟合现象。那什么样的模型容易过拟合呢?

答案是“不稳定的模型!”,也就是训练出来的模型放在训练数据上表现特别好,但放在真实的线上环境时就不行了。 就好比一个学生平时成绩非常好,但一到关键时刻就不灵了,这种现象可以笼统地理解

为不稳定。所以

我们的目的是希望训练出一个稳定的模型。

从统计的角度, 方差和标准差是可以用来表示稳定性的。稳定性越高,说明方差或者标准差越小。

比如一个学生过去六次考试成绩分别是: 50,55,54, 56, 56,54… 我们可以说这个学生表现非常稳定,虽然一直是倒数第一名…。 当然我们希望这名学生努力奋斗,到了第二年时可以得到: 98,

99,100, 96, 97, 94… 这样的成绩,既稳定又优秀!  训练模型也是一样的,我们希望这个模型既稳定,准确率也高。那集成模型为什么更稳定呢? 答案就是,如果通过集成模型做预测,它会减少方差

(或者标准差),即可以认为模型稳定。

稳定性 -- 方差小

问题

假设我们邀请7位专家,而且每一位专家在决策上犯错误的概率为0.3,那他们共同决策时最终犯错误的概率是多少? 决策上采用多数服从少数原则,比如4个人选YES,3个人选NO,最终预测结果是

YES。

对于上面的问题,在不计算的情况下其实也可以大致判断出来正确答案是0.126。那具体怎么判断呢? 首先,我们在讨论集成模型,也就是在暗示集成模型的稳定性要更高,所以错误率一定会低于0.3的,所以可

以排除前两个。对于后两个选项,0.01是明显有点离谱了,所以也可以排除掉。最后不就剩了0.126么…

    

 

 假如我们有N个不同的模型,而且每个模型预测时的方差为σ2,则同时使用N个模型预测时的方差为多少?

  假如每一个随机变量有着方差σ2,  则当我们混合了N个随机变量的时候, 方差就会减少为原来的 σ2/ N

平均带来方差的减少(variance  reduction)

假如有N个模型,每个模型在预测时的方差为σ2 ,则通过N个模型一起预测时的方差是(平均):σ2 / N

方差和稳定性

做个总结,多个模型共同预测确实会降低方差,也就意味着提高模型的稳定性。但准确率是不是也会保证提升呢? 这个其实不好说,但通常来说集成模型的准确率还是要高于其他简单模型的。但不管怎么

样,只要能理解为什么共同决策会降低风险或者增加稳定性,足以帮助理解后续的内容了。

3. 随机森林的训练

Bagging的流程

构建每个模型是并行

 

 既然随机森林也属于Bagging的范畴,训练和预测过程也跟上图里的是一样的。随机森林里有两个关键词,一个叫“随机”,一个叫“森林”。森林比较好理解,就是很多树的集合,也说明了模型本身的特

点。 “随机”这个关键词不是特别直观,但马上会了解到为什么叫随机。

随机森林是通过多颗决策树共同做决策

 随机森林的预测过程无非是多棵决策树共同作出决策。比如对于分类型问题,可以通过投票的方式; 对于回归问题,则可以采用平均法则。

随机森林的构造

 构造随机森林时需要考虑的点

  • 我们只有一份训练数据;
  • 确保多颗决策树要优于单颗决策树;

随机森林的构造

这两点看起来没什么特别,但实际上非常重要。因为我们的目的是要训练出效果更好、更稳定的模型。如果最后训练出来的多棵决策树比单棵决策树还要差,那真的就没必要使用随机森林了。

 如上图所示, 基于给定的同一份样本数据,  我们同时构造出若干个决策树作为随机森林,可不可以?

  很显然是不能这么做的。道理很简单, 因为通过同一份数据训练出来的模型都是一样的! 即便我们有1000棵决策树,但每一棵决策树都一样,这跟训练一棵决策树没什么区别。

稍微复杂一点的例子:想象一下,手里有10万块钱,希望投资到股市里,但不想风险太大。“不要把东西放在同一个篮子里”, 这其实在说如果只是买一只股票风险会很大,最好需要多买几只来抵抗风

险。如果我们把钱投资到同一个类别的股票里,其实起不到太大抵抗风险的作用的。因为同一个行业里的股票通常有很强的相关性。一般来说,它们的趋势都是类似的。所以呢,如果想多买几只股票,通常会

选择不同板块、不同行业的股票,这样可以起到较好的抗风险效果。

如果我们得出来的多棵决策树之间相关性比较大,其实做不到增加稳定性的作用,至少效果不会好

稳定性的基础是多样性(Diversity)

只有多样性(Diversity)才能保证随机森林的效果! 这一点非常重要。就比如我们在构建团队的时候,也希望每个人有自己的特点,这样可以起到很好的互补作用,补偿取短。那接下来的问题就来了,如何

构造出很多具备多样性的决策树答案在于“随机“!

  • 训练样本的随机化;
  • 特征选择时的随机化;

通过两个方面的随机操作,可以得出具备多样性的决策树。这也是为什么把它叫作“随机”森林的主要原因。第一种随机化来自于样本的采样,也就是说每一棵决策树来自于不同的训练样本。

Bootstrap

除了样本的随机化,我们在构造每一棵决策树的时候也会随机化特征。回顾之前决策树模型,当我们要选择当前最好的特征作为根节点的时候,我们把所有可能的特征全部尝试了一遍然后选了其中最好

的。但在随机森林里,选择特征的时候首先会做采样,比如从100个特征里选择10个,然后从10个当中选择最好的特征作为当前的根节点。 所以,每一次做分裂(split)的时候先要做特征的采样,然后一一

做比较,最后选择效果最好的。这两个方面的随机化可以保证带来多样化的决策树。当然除了这两个,还可以设计更多的随机化,但主要还是以这两个为主。

随机森林的预测

构建完随机森林之后,我们即可以对新的样本做预测了!  预测过程类似于投票的过程。

 

 回归时最简单的决策是取平均,分类的时候投票少数服从多数;

4. 随机森林的过拟合

随机森林的参数

随机森林模型本身对避免过拟合现象是有着不错的表现的,但这并不代表随机森林就不会过拟合。任何的一个机器学习模型都存着过拟合的风险。对于这个问题,目前主流的方法还是调参。接下来我们

来了解一下随机森林的调参中经常涉及到的超参数。具体详细的信息请看官方文档: split的时候随机选出来的特征个数。

复制代码
# 导入数字识别数据集,这个数据集已经集成在了sklearn里
from sklearn.datasets import load_digits
# 导入随机森林分类器
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
# 导入数据
digits = load_digits()
X = digits.data
y = digits.target
X_train, X_test, y_train, y_test = train_test_split(X,
              y, test_size=0.2, random_state=42)
# 创建随机森林,参数可以适当修改一下。
# https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html
clf = RandomForestClassifier(n_estimators=400, criterion='entropy',
              max_depth=5, min_samples_split=3, max_features='sqrt',random_state=0)
clf.fit(X_train, y_train)
print ("训练集上的准确率为:%.2f, 测试数据上的准确率为:%.2f"
   % (clf.score(X_train, y_train), clf.score(X_test, y_test)))
----------------------------------------------------------------------
训练集上的准确率为:0.98, 测试数据上的准确率为:0.95
复制代码

预测员工的离职率

随机森林的参数比较多,所以在实际的项目当中还是要认真去调参的。在本章的最后,我们一起来学习一下一个小的案例:预测员工的离职率。问题核心是根据员工的一些数据来预测员工是否会有离职倾

向,这是一个经典的二分类问题。对于这个问题,我们使用随机森林来预测。

复制代码
## 员工离职率预测小案例

# 引入相应的工具包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as matplot
%matplotlib inline
from sklearn.model_selection import train_test_split

# 读取数据到pandas dataframe
df = pd.read_csv('/home/anaconda/data/Z_NLP/HR_comma_sep.csv', index_col=None)

# 检测是否有缺失数据
print (df.isnull().any(), "\n\n")

# 看看数据的样例吧
print (df.head(), "\n\n")

# 给定数据里的列名有些不太清楚,咱们改改吧! 
df = df.rename(columns={'satisfaction_level': 'satisfaction', 
                        'last_evaluation': 'evaluation',
                        'number_project': 'projectCount',
                        'average_montly_hours': 'averageMonthlyHours',
                        'time_spend_company': 'yearsAtCompany',
                        'Work_accident': 'workAccident',
                        'promotion_last_5years': 'promotion',
                        'sales' : 'department',
                        'left' : 'turnover'
                        })


# 将预测标签‘是否离职’放在第一列,这是咱们的label!
front = df['turnover']
df.drop(labels=['turnover'], axis=1, inplace = True)
df.insert(0, 'turnover', front)
#df.head()

# 计算一下离职员工的百分比和没有离职的百分比。
turnover_rate = df.turnover.value_counts() / len(df)
print ("样本数据中,离职率为:%.2f\n\n" % turnover_rate[1])

# 最后显示一下统计数据看看吧!
print (df.describe(),"\n\n")

# 将string类型转换为整数类型,不然后面处理不了。
df["department"] = df["department"].astype('category').cat.codes
df["salary"] = df["salary"].astype('category').cat.codes

# 设置特征值和标签。 X 存放特征, y存放标签
target_name = 'turnover'
X = df.drop('turnover', axis=1)
y = df[target_name]

# 将数据分为训练和测试数据集
# 注意参数 stratify = y 意味着在产生训练和测试数据中, 离职的员工的百分比等于原来总的数据中的离职的员工的百分比
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.15, random_state=123, stratify=y)

# 准备工作就绪,接下来就训练模型时间到了!
from sklearn.metrics import classification_report
from sklearn.ensemble import RandomForestClassifier
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier


# 决训练一下决策树
dtree = tree.DecisionTreeClassifier(
    criterion='entropy',
    #max_depth=3, # 定义树的深度, 可以用来防止过拟合
    min_weight_fraction_leaf=0.01 # 定义叶子节点最少需要包含多少个样本(使用百分比表达), 防止过拟合
    )
dtree = dtree.fit(X_train,y_train)
print ("\n\n ---决策树---")
print(classification_report(y_test, dtree.predict(X_test)))

# 随机森林
rf = RandomForestClassifier(
    criterion='entropy',
    n_estimators=1000, 
    max_depth=None, # 定义树的深度, 可以用来防止过拟合
    min_samples_split=10, # 定义至少多少个样本的情况下才继续分叉
    #min_weight_fraction_leaf=0.02 # 定义叶子节点最少需要包含多少个样本(使用百分比表达), 防止过拟合
    )
rf.fit(X_train, y_train)
print ("\n\n ---随机森林---")
print(classification_report(y_test, rf.predict(X_test)))
------------------------------------------------------------------
复制代码

 

posted @   kris12  阅读(1310)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
levels of contents
点击右上角即可分享
微信分享提示