脏数据+清洗数据

什么是脏数据?

数据仓库中的数据是面向某一个主题的数据集合,这些数据从多个业务系统中抽取,并且存在历史数据。这样就避免不了存在数据错误、数据冲突。这些错误数据和冲突数据就被称为脏数据。比如:不完整的数据、错误的数据、重复的数据。

 

洗数据:发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

 

分类:

筛选、清除、补充、纠正

 

作用:数据清洗是数据预处理的第一步,也是保证后续结果正确的重要一环。若不萌保证数据的正确性,我们可能得到错误的结果,比如因小数点错误而造成数据放大十倍,百倍甚至更大等。在数据量较大的项目中,数据清洗时间可达整个数据分析过程的一半或以上。

posted @   星海violet  阅读(1014)  评论(1编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具
点击右上角即可分享
微信分享提示