03 2019 档案
摘要:在数据挖掘过程中,数据预处理工作量占到整个过程的60%。 数据清洗 缺失值处理 1. 删除记录 2. 数据插补 3. 不处理 异常值处理 1. 删除含有异常值的记录 2. 视为缺失值 3. 平均值修正 4. 不处理 很多情况下,要先分析异常值出现的可能原因,再判断异常值是否应该舍弃,如果是正确数据,
阅读全文
摘要:通过检验数据集的数据质量,绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。 数据质量分析 是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有有效的数据,数据挖掘构建的模型就是空中楼阁。 缺失值分析 缺失值产生的原因 缺失值的影响 缺失值的分析:缺失
阅读全文
摘要:回归分析 相关分析是分析变量间的相关程度,具有相关关系的变量可以通过建立模型来分析它们之间的相互关系,这个过程称为回归分析。 相关程度:完全相关、不完全相关和不相关。完全相关的关系可以找到一个函数表达。 相关方向:正相关和负相关 相关形式:线性相关和非线性相关 回归分析 回归分析是通过建立回归模型来
阅读全文