摘要: 一、基础理解 1)公式 2)实例计算基尼系数 3 种情况计算基尼系数: 基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小; 3)只有两种类别的数据集 二、使用基尼系数划分节点数据集 1)格式 from sklearn.tree import DecisionTreeClassifier dt 阅读全文
posted @ 2018-08-14 22:14 何永灿 阅读(2505) 评论(0) 推荐(0) 编辑
摘要: 一、信息熵 百科:信息熵 衡量信息的不确定度; 1)理论提出 信息论之父 C. E. Shannon 指出:任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。 信息论之父 C. E. Shannon 指出:任何信息都存在冗余,冗余大小与信息中每个符号(数字 阅读全文
posted @ 2018-08-14 22:00 何永灿 阅读(4100) 评论(0) 推荐(0) 编辑
摘要: 老师强调:作为计算机工程师,传统的算法和数据结构是最基础的内容,要掌握。 一、节点数据集的划分 1)决策树算法的思想 解决分类问题时,决策树算法的任务是构造决策树模型,对未知的样本进行分类; 决策树算法利用了信息熵和决策树思维: 2)划分步骤 划分点:某一特征的某一个数值;(根据该特征值对数据集样本 阅读全文
posted @ 2018-08-14 20:45 何永灿 阅读(3455) 评论(0) 推荐(0) 编辑
摘要: 一、决策树思维、决策树算法 1)决策树思维 决策树思维是一种逻辑思考方式,逐层的设定条件对事物进行刷选判断,每一次刷选判断都是一次决策,最终得到达到目的;整个思考过程,其逻辑结构类似分叉的树状,因此称为决策树思维; 例一:公式招聘时的决策树思维 此过程形成了一个树的结构,树的叶子(录用 / 考察)节 阅读全文
posted @ 2018-08-14 14:17 何永灿 阅读(4791) 评论(0) 推荐(0) 编辑