有监督分类:决策树以及随机森林

1:决策树

1.1决策树可以分为两个阶段

 

 1.2:熵和Gini系数:

 

 【注】熵和Gini系数的特点(内部越混乱则熵或Gini系数值越大,否则越小)

熵和Gini系数拟解决的问题:熵和Gini系数的引入是为了判断谁作为决策树的根节点?

如何解决:通过信息增益(gain(某一属性/特征)=原始熵值-节点的熵值)的大小来判断熵的降低速度。

1.3决策树的三种算法

c4.5拟解决的问题:存在一些特征(属性)含有多个特征值(属性值),然而每个特征值对应的样本又非常的少,就会使得信息增益很大,但是分类效果并不好?

c4.5解决办法:引入信息增益率=信息增益/节点自身的熵值

 评价函数:Nt为叶子节点中样本的个数,H(t)为叶子节点的熵值(即叶子节点内部属性值的熵值和)

 

 

 

【注】节点的熵值和节点自身的熵值的区别:节点的熵值表示,节点内的属性值的熵值和;节点自身的熵值表示,节点本身在所在同一层节点的熵值和。

 

1.4预剪枝和后剪枝

拟解决问题:当决策树过于庞大时,证明决策树的分支过多以及高度过高,就会导致出现过拟合的现象,从而导致在测试集中取得的效果并不好?

解决办法如图:

 

 预剪枝的方法例如:设置树的深度;设置节点内的样本数量等。

后剪枝的方法:通过比较某一个节点不分裂(计算时|Tleaf|=1,即自身为叶子节点)与分裂的Ca(T)的大小,如果不分裂的损失值较小,则将其分支剪掉。 

 

1.5参数详解

 

 2:随机森林

2.1随机森林的工作原理:

通过建立n棵决策树,进行分类(取众数)和回归(取均值)任务。

 

2.2随机森林的两重随机性:

拟解决问题:过拟合问题?

解决办法:随机森林通过行采样、列采样对数据进行二次采样,两重随机采样的过程保证了随机性,不会出现过拟合,随机森林一般无需剪枝。

样本选择的随机性(行采样的随机性):例如从含有N个样本中,有放回的随机采样60%。

特征选择的随机性(列选择的随机性):例如从n个特征中选择f个(0<f<=n)。

【注】有放回采样:如样本集合为[1,2,3,4,5,6,7,8,9,10],有放回选择6个[1,1,2,3,4,4]

 

2.2:详细请参考博客https://blog.csdn.net/yangyin007/article/details/82385967

 

2.3:详细请参考博客https://blog.csdn.net/weixin_42156897/article/details/94025136

posted @ 2021-11-02 10:58  收购阿里巴巴  阅读(135)  评论(0编辑  收藏  举报