脏数据+清洗数据
什么是脏数据?
数据仓库中的数据是面向某一个主题的数据集合,这些数据从多个业务系统中抽取,并且存在历史数据。这样就避免不了存在数据错误、数据冲突。这些错误数据和冲突数据就被称为脏数据。比如:不完整的数据、错误的数据、重复的数据。
洗数据:发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
分类:
筛选、清除、补充、纠正
作用:数据清洗是数据预处理的第一步,也是保证后续结果正确的重要一环。若不萌保证数据的正确性,我们可能得到错误的结果,比如因小数点错误而造成数据放大十倍,百倍甚至更大等。在数据量较大的项目中,数据清洗时间可达整个数据分析过程的一半或以上。