网站
1:https://zhuanlan.zhihu.com/p/197476119 #综合
2:https://blog.csdn.net/u010916338/article/details/94653402 #信息增益率
3:https://zhuanlan.zhihu.com/p/493238757 #熵最大值证明
4:https://zhuanlan.zhihu.com/p/456351465 #基尼系数
理论
1、熵代表集合里面结果的不确定性,熵越高不确定性越高或者混乱程度越高。
2、计算公式
一般[0,1],理论[0,log2为底n]
3、信息增益公式
越大越好。
4、ID3偏好特征多的变量。
所以增加惩罚项。
5、C4.5
虽然提高了分类效果,C4.5还是有一些缺点:
C4.5生成的是多叉树,在计算机中二叉树模型会比多叉树运算效率高
C4.5只能用于分类任务
熵模型里面含有大量的对数运算, 是非常耗时的。
6、CART
CART分类树建立算法流程,之所以加上建立,是因为CART分类树算法有剪枝算法流程。算法输入训练集D,基尼系数的阈值,样本个数阈值。输出的是决策树T。
算法从根节点开始,用训练集递归建立CART分类树。
对于当前节点的数据集为 D,如果样本个数小于阈值或没有特征,则返回决策子树,当前节点停止递归。
计算样本集 D 的基尼系数,如果基尼系数小于阈值,则返回决策树子树,当前节点停止递归。
计算当前节点现有的各个特征的各个特征值对数据集 D 的基尼系数,对于离散值和连续值的处理方法和基尼系数的计算见第二节。缺失值的处理方法和 C4.5 算法里描述的相同。
在计算出来的各个特征的各个特征值对数据集 D 的基尼系数中,选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值,把数据集划分成两部分
和
,同时建立当前节点的左右节点,做节点的数据集 D 为
,右节点的数据集 D 为
。
对左右的子节点递归的调用 1-4 步,生成决策树。
可能会有变量多次被使用到。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了