随笔分类 -  数据分析&数据挖掘

摘要:分类与预测 分类主要是预测分类标号(离散属性),预测是建立连续值函数模型,预测给定自变量的因变量的值。 常用的分类与预测算法 | 算法名称 | 算法简介 | | : | : | | 回归分析 | 回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。包括线性回归,非线性回 阅读全文
posted @ 2019-04-15 23:43 高空降落 阅读(450) 评论(0) 推荐(0) 编辑
摘要:在数据挖掘过程中,数据预处理工作量占到整个过程的60%。 数据清洗 缺失值处理 1. 删除记录 2. 数据插补 3. 不处理 异常值处理 1. 删除含有异常值的记录 2. 视为缺失值 3. 平均值修正 4. 不处理 很多情况下,要先分析异常值出现的可能原因,再判断异常值是否应该舍弃,如果是正确数据, 阅读全文
posted @ 2019-03-26 00:53 高空降落 阅读(344) 评论(0) 推荐(0) 编辑
摘要:通过检验数据集的数据质量,绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。 数据质量分析 是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有有效的数据,数据挖掘构建的模型就是空中楼阁。 缺失值分析 缺失值产生的原因 缺失值的影响 缺失值的分析:缺失 阅读全文
posted @ 2019-03-24 18:50 高空降落 阅读(279) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示