低质量的数据导致低质量的挖掘结果。(包括准确性,完整性,一致性) 数据清理:清除数据中的噪声 数据集成:将多个数据源合并成统一的数据存储 数据归约:PCA,聚类来降低数据规模 数据变换:把数据压缩到较小的区间