有监督分类：决策树以及随机森林

1：决策树

1.1决策树可以分为两个阶段

1.2：熵和Gini系数：

【注】熵和Gini系数的特点（内部越混乱则熵或Gini系数值越大，否则越小）

熵和Gini系数拟解决的问题：熵和Gini系数的引入是为了判断谁作为决策树的根节点？

如何解决：通过信息增益（gain(某一属性/特征)=原始熵值-节点的熵值）的大小来判断熵的降低速度。

1.3决策树的三种算法

c4.5拟解决的问题：存在一些特征（属性）含有多个特征值（属性值），然而每个特征值对应的样本又非常的少，就会使得信息增益很大，但是分类效果并不好？

c4.5解决办法:引入信息增益率=信息增益/节点自身的熵值

评价函数：Nt为叶子节点中样本的个数，H(t)为叶子节点的熵值（即叶子节点内部属性值的熵值和）

【注】节点的熵值和节点自身的熵值的区别：节点的熵值表示，节点内的属性值的熵值和；节点自身的熵值表示，节点本身在所在同一层节点的熵值和。

1.4预剪枝和后剪枝

拟解决问题：当决策树过于庞大时，证明决策树的分支过多以及高度过高，就会导致出现过拟合的现象，从而导致在测试集中取得的效果并不好？

解决办法如图：

预剪枝的方法例如：设置树的深度；设置节点内的样本数量等。

后剪枝的方法：通过比较某一个节点不分裂（计算时|T_leaf|=1，即自身为叶子节点）与分裂的C_a(T)的大小，如果不分裂的损失值较小，则将其分支剪掉。

1.5参数详解

2：随机森林

2.1随机森林的工作原理：

通过建立n棵决策树，进行分类（取众数）和回归（取均值）任务。

2.2随机森林的两重随机性：

拟解决问题：过拟合问题？

解决办法：随机森林通过行采样、列采样对数据进行二次采样，两重随机采样的过程保证了随机性，不会出现过拟合，随机森林一般无需剪枝。

样本选择的随机性（行采样的随机性）：例如从含有N个样本中，有放回的随机采样60%。

特征选择的随机性（列选择的随机性）：例如从n个特征中选择f个（0<f<=n）。

【注】有放回采样：如样本集合为[1,2,3,4,5,6,7,8,9,10],有放回选择6个[1,1,2,3,4,4]

2.2:详细请参考博客https://blog.csdn.net/yangyin007/article/details/82385967

2.3:详细请参考博客https://blog.csdn.net/weixin_42156897/article/details/94025136

posted @ 2021-11-02 10:58 收购阿里巴巴阅读(151) 评论(0) 编辑收藏举报

刷新页面返回顶部

收购阿里巴巴