脏数据+清洗数据

什么是脏数据?

数据仓库中的数据是面向某一个主题的数据集合,这些数据从多个业务系统中抽取,并且存在历史数据。这样就避免不了存在数据错误、数据冲突。这些错误数据和冲突数据就被称为脏数据。比如:不完整的数据、错误的数据、重复的数据。

 

洗数据:发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

 

分类:

筛选、清除、补充、纠正

 

作用:数据清洗是数据预处理的第一步,也是保证后续结果正确的重要一环。若不萌保证数据的正确性,我们可能得到错误的结果,比如因小数点错误而造成数据放大十倍,百倍甚至更大等。在数据量较大的项目中,数据清洗时间可达整个数据分析过程的一半或以上。

posted @ 2021-01-12 16:29  星海violet  阅读(930)  评论(1编辑  收藏  举报