摘要: 1.数据清理: 通过填写缺失的值,光滑噪声数据,识别或删除离群点并解决不一致性来清理数据。 2.数据集成 集成多个数据库,数据立方体或文件。 由于不同的数据库同一概念的属性可能有不同的名字,或者属性值命名不一致等都会造成不一致性和冗余。所以在准备数据时应当避免数据冗余,还不仅仅是简单的组合在一起。 阅读全文
posted @ 2016-10-31 10:24 YJ-20 阅读(532) 评论(0) 推荐(0) 编辑