数据预处理
为什么要进行数据的预处理呢?最主要的原因是数据质量无法满足数据挖掘的要求。
数据预处理的主要任务包括:数据清洗 数据集成 数据转换 数据归约 数据离散化
数据清洗 填补缺失值 对有噪声的数据进行平滑处理 识别并移除数据中的离群点并解决数据不一致性的问题
数据集成:解决数据在不同数据源中的格式和表示的不同
数据转化:对数据的值进行转换 K均值聚类和贝叶斯分类对数值的转换是非常必要的
数据归约 进行简化的技术
数据离散化 是对连续数据值进行离散化的过程 也称为量化
数据预处理最终的目的:将不完整不一致不准确的数据造成的不利影响尽可能地消除使得后续的数据挖掘的工作能够的得到高质量的结果
描述数据的中心趋势:中位数 众数 平均数
数据的分散程度 分位数 方差 标准差
其他的方式:直方图 分位数图 Q-Q图 散点图
数据清洗中 数据缺失的处理:1,舍弃 2,人工填补缺失值,3,自动对缺失值进行填补(一般采用平均值进行填补)
处理噪声数据:分箱,聚类分析,回归分析
数据集成和转换
处理数据冗余性的两种数据相关性的分析工具:皮尔森相关系数和卡方检验
数据转换:包括平滑 聚合 泛化,规范化,属性和特征的重构等操作
数据归约和变换:1.数据立方体聚合 2,特征选择(向前 向后 决策树归纳方法)3,数据压缩4.回归分析 5,聚类 6.采样
数据离散化:基于信息增益的离散化 基于卡方检验的离散化 基于自然分区的离散化