数据清理
数据存在的问题:不完整,有噪声,不一致
解决方法:填充缺失值,光滑噪声并识别离群值,纠正数据中的不一致
缺失值
1.忽略元组,适用于多个属性缺失
2.人工填写
3.使用一个全局常量填写,如:“Unknown”,“-∞”
4.使用属性的中心度量填充,对称的数据分布用均值,倾斜数据分布用中位数
5.使用与给定元组同一类的所有样本的均值或中位数
6.使用回归或贝叶斯形式化方法推理(最流行)
噪声数据
噪声:被测变量的随机误差或方差
分箱:用箱均值光滑,用箱边界光滑
回归:用一个函数来拟合数据,实现光滑
离群值分析:聚类中,落在簇之外的值视为离群值
数据清理过程
偏差检测和数据变换迭代进行