摘要: ##决策树的局限性 局限性这方面,很明显的一点就是关于决策边界的划分,决策树的决策边界是非常规整的,都是直线,垂直于横轴或者垂直于纵轴 这就导致了绘制出的决策边界很可能不是真实情况的决策边界,如果决策边界是一条斜线,那么决策树的决策边界一定不对,因为画不出来,乂,多捞嗷 而且可能因为数据的数量不够多 阅读全文
posted @ 2021-01-28 21:04 DbWong_0918 阅读(416) 评论(0) 推荐(0) 编辑
摘要: ##决策树解决回归问题 如果输出是一个具体的数,这就是一个回归问题,相应的一个新的样本点到了决策树之后,使用决策树以后到达叶子节点中,就可以用叶子节点中相应的数据输出值的平均值来作为预测的结果 具体实现 (在notebook中) 加载好需要的类库,使用波士顿房价这个数据集,对数据集进行训练数据集和测 阅读全文
posted @ 2021-01-28 21:02 DbWong_0918 阅读(628) 评论(0) 推荐(0) 编辑
摘要: ##CART与决策树中的超参数 先前的决策树其实应该称为CART CART的英文是Classification and regression tree,全称为分类与回归树,其是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法,就是假设决策树是二叉树,内部结点特征的取值为“是”和“否” 阅读全文
posted @ 2021-01-28 20:59 DbWong_0918 阅读(668) 评论(0) 推荐(0) 编辑
摘要: ##基尼系数 使用信息熵的方式对决策树进行划分 除了时候信息熵来进行划分,还可以使用另一个指标来进行划分,指标就是基尼系数 基尼系数的式子很简单,取值情况和信息熵一样 假设有两个类别,一个占比x,另一个占比1-x,那么上面的式子就可以变成(抛物线) 可以发现这个是以0.5为对称轴的,即0.5的时候取 阅读全文
posted @ 2021-01-28 20:54 DbWong_0918 阅读(333) 评论(0) 推荐(0) 编辑
摘要: ##信息熵以及模拟使用信息熵来进行划分 ###信息熵 前文说到决策树的构建的关键问题就是每个节点在哪个维度做划分?以及某个维度在哪个值上做划分? 那么可以使用计算信息熵来解决这个问题 信息熵是什么,简单来说,在信息论中代表随机变量不确定度的度量,也就是说对于一组数据来说,越不确定越随机,那么信息熵就 阅读全文
posted @ 2021-01-28 20:49 DbWong_0918 阅读(514) 评论(0) 推荐(0) 编辑
摘要: ##决策树 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成树来求出现值的期望大于等于零的概率,是一种用来评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法,由于这种决策分支画成图形很像一棵树的枝干,故称决策树 在机器学习中,决策树是一个预测模型, 阅读全文
posted @ 2021-01-28 20:45 DbWong_0918 阅读(694) 评论(0) 推荐(0) 编辑