数据清理

数据存在的问题:不完整,有噪声,不一致
解决方法:填充缺失值,光滑噪声并识别离群值,纠正数据中的不一致

缺失值
1.忽略元组,适用于多个属性缺失
2.人工填写
3.使用一个全局常量填写,如:“Unknown”,“-∞”
4.使用属性的中心度量填充,对称的数据分布用均值,倾斜数据分布用中位数
5.使用与给定元组同一类的所有样本的均值或中位数
6.使用回归或贝叶斯形式化方法推理(最流行)

噪声数据
噪声:被测变量的随机误差或方差
分箱:用箱均值光滑,用箱边界光滑

回归:用一个函数来拟合数据,实现光滑
离群值分析:聚类中,落在簇之外的值视为离群值

数据清理过程
偏差检测和数据变换迭代进行

posted @ 2021-03-09 22:10  吴莫愁258  阅读(292)  评论(0编辑  收藏  举报