决策树 C&RT、CHAID、QUEST、C5.0的区别【完善版】
决策树(Decisiontree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
优点:
1) 可以生成可以理解的规则;
2) 计算量相对来说不是很大;
3) 可以处理连续和种类字段;
4) 决策树可以清晰的显示哪些字段比较重要。
缺点:
1) 对连续性的字段比较难预测;
2) 对有时间顺序的数据,需要很多预处理的工作;
3) 当类别太多时,错误可能就会增加的比较快;
一、
优点:
1)面对数据遗漏和输入字段很多的问题时非常稳健;
2)通常不需要很长的训练次数进行估计;
3)比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;
4)允许进行多次多于两个子组的分割。
字段约定:目标字段必须为分类字段。
二、Classification and Regression Tree(C&RT): 分类回归树
分类回归树
优点
(1) 可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;
(2) 在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust);
(3) 估计模型通常不用花费很长的训练时间;
(5) 比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推理过程可以表示成IF…THEN的形式
(6) 目标是定类变量为分类树,若目标变量是定距变量,则为回归树;
(7) 通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一个划分。
(8) 非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。
字段约定:与c5.0不同,输出(目标)字段可以为数值型也可以为字符型
三、CHAID:
优点:
(1)可产生多分枝的决策树
(2)目标变量可以定距或定类
(3)从统计显著性角度确定分支变量和分割值,进而优化树的分枝过程
(4)建立在因果关系探讨中,依据目标变量实现对输入变量众多水平划分
字段约定:输出字段特别适合为分类变量,当为连续变量时会自动分为10段处理。
logistic的目标字段也是分类变量而不能为数值变量。当分类变量的结果有多个分类的时候,使用多项模型,如果是“是/否,真/假,或流失/保持”,则会转而创建二项模型,使用“(二项 Logistic 回归)”
四、Quest(quick unbiased efficient statistical tree):
优点:运算过程比CR&T更简单有效
QUEST 节点可提供用于构建决策树的二元分类法,此方法的设计目的是减少大型 C&R决策树分析所需的处理时间,同时减小分类树方法中常见的偏
向类别较多预测变量的趋势。预测变量字段可以是数字范围的,但目标字段必须是分类的。所有分割都是二元的。
字段约定:输出(目标)字段必须为二值分类型变量(如果是多值得转化为二值)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· [AI/GPT/综述] AI Agent的设计模式综述