摘要: 1.数据集成需考虑的问题 a.模式集成和对象匹配 b.冗余。原因一:能够用一个或一组属性导出,原因二:属性或维命名的不一致。 2.属性冗余的相关分析检测 a.数值属性计算相关系数 说明:n为元祖个数,ai,bi分别为元祖i中属性A,B的值。-A,-B分别为A和B的均值,然后是A,B的标准差,然后是A 阅读全文
posted @ 2016-11-01 11:39 YJ-20 阅读(618) 评论(0) 推荐(0) 编辑
摘要: 1.数据清理清理什么。 缺失值,噪声,纠正数据的不一致 2.清理噪声的方法 a.分箱。对象是有序的数据。可以用箱的均值,中位数,箱边界光滑(箱中的每一个值都被据它最近的边界值代替)。 b.回归。用一个函数拟合数据进行光滑。 c.聚类。 3.数据清理作为一个过程 a.偏差检测(第一步检测。主要解决不一 阅读全文
posted @ 2016-11-01 09:38 YJ-20 阅读(385) 评论(0) 推荐(0) 编辑