该文被密码保护。 阅读全文
posted @ 2019-02-21 23:12 缄默1996 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 5 rows × 41 columns 长度是小于索引的,说明可能是有缺失的 阅读全文
posted @ 2019-02-20 23:58 缄默1996 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 1、算法类: 决策树、随机森林、逻辑回归、支持向量机、贝叶斯 (1)决策树算法: a、hunt算法 hunt是决策树的基本算法,算法步骤是从决策树的根节点开始,选择一个属性特征作为他判断的特征,是或不是,真或假,大于x或者小于等于x等等吧,接着把这些特征分配到子节点,再使用新的属性作为新的特征来判断 阅读全文
posted @ 2019-02-19 22:24 缄默1996 阅读(393) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-02-18 21:04 缄默1996 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-02-17 22:56 缄默1996 阅读(1) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-02-17 14:59 缄默1996 阅读(3) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-02-16 15:58 缄默1996 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 决策树是一种类似于流程图的树结构。有二元分支树和多分支树两种。内部节点表示在一个属性上的测试,分支是代表一个测试输出,树节点代表类和类分布。 决策树的生成:构建阶段是在开始时先把所有的训练样本放在根节点,然后通过选定的属性来划分样本(必须是离散值),树剪枝阶段是检测和去除训练数据中的噪声和孤立点。 阅读全文
posted @ 2019-02-16 14:29 缄默1996 阅读(760) 评论(0) 推荐(0) 编辑
摘要: 三个方面来看数据探索:汇总统计、可视化和联机分析处理 1、汇总统计是用数概括数据的性质(位置度量、散布度量) 频率:一个属性值的频率是数据集里属性值发生次数的百分比 众数:一个属性的众数是具有最高频率的值 百分位数:对于连续的数据,考虑值集的百分位数更有意义 位置度量:均值和中位数 散布度量:极差和 阅读全文
posted @ 2019-02-16 12:09 缄默1996 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 属性的类型 1、标称:标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象。邮编、雇员ID、颜色、性别。 2、序数:序数属性的值提供足够的信息确定对象的序 。矿石硬度(好,较好,最好)、成绩、街道号码 3、区间:对于符号属性,值之间的差是有意义的,即存在测量单位。日历日期、摄氏温度华氏 阅读全文
posted @ 2019-02-15 22:44 缄默1996 阅读(482) 评论(0) 推荐(0) 编辑