该文被密码保护。 阅读全文
posted @ 2019-02-16 15:58 缄默1996 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 决策树是一种类似于流程图的树结构。有二元分支树和多分支树两种。内部节点表示在一个属性上的测试,分支是代表一个测试输出,树节点代表类和类分布。 决策树的生成:构建阶段是在开始时先把所有的训练样本放在根节点,然后通过选定的属性来划分样本(必须是离散值),树剪枝阶段是检测和去除训练数据中的噪声和孤立点。 阅读全文
posted @ 2019-02-16 14:29 缄默1996 阅读(760) 评论(0) 推荐(0) 编辑
摘要: 三个方面来看数据探索:汇总统计、可视化和联机分析处理 1、汇总统计是用数概括数据的性质(位置度量、散布度量) 频率:一个属性值的频率是数据集里属性值发生次数的百分比 众数:一个属性的众数是具有最高频率的值 百分位数:对于连续的数据,考虑值集的百分位数更有意义 位置度量:均值和中位数 散布度量:极差和 阅读全文
posted @ 2019-02-16 12:09 缄默1996 阅读(175) 评论(0) 推荐(0) 编辑