干货来了!快速教你数据清洗的步骤及方法
说起数据清洗,可能会有些小伙伴会觉得这一步可以忽略掉,但是!作为混迹在数据分析这一块多年的老油条,小编在此严肃地声明!资料清理是资料处理中最不能被忽略的部分,它是资料分析过程中不可缺少的一环,其结果的好坏直接关系到模型的效果。实际上,数据清洗通常要占用50%—80%的分析过程。国外有些学术机构还会专门研究如何做数据清洗,相关的书籍也不少。
数据清洗的主要类型有哪几种
一、残缺数据
此类数据主要是缺少某些应包括的信息,如供应商名称、分公司名称、客户区域信息缺失、业务系统中主表与明细表不匹配等。那么对于这一类型的数据就需要过滤出来,并在规定的时间内补全,之后再写入数据仓库。
二、错误数据
这类数据的原因是业务系统完善接收输入后没有判断直接写入背景数据库,如数值数据输成全角数字字符、字符串数据、日期格式不正确、日期越界等。这种类型的数据还需要进行分类,对于类似于全角字符、数据前后出现不可见字符的问题,只能通过编写SQL语句来查找,然后让用户在业务系统改后抽取。日期格式不正确或日期越界的错误会导致ETL运行失败,这种错误需要通过SQL的方式从业务系统数据库挑选出来,交给业务主管部门,要求限期修改,改后提取。
三、重复数据
这种类型的数据,尤其是在维表中,就会出现这种情况,所以要把所有重复数据记录的字段都写出来,让客户进行确认和分析。
资料整理是一个反复的过程,只有不断地发现问题,解决问题,才能在几天内完成。关于是否过滤,一般需要客户确认,被过滤的数据,写到Excel文件把滤数据写到数据表,ETL开发初期每天都会把过滤数据的邮件发送给业务单位,促使他们尽快修改错误,并可以作为未来验证资料的基础。要注意的是,不能过滤有用的数据,要仔细验证每条过滤规则,然后让用户确认。
搞清楚了数据清洗的原则和理论,接下来进行数据清洗就容易很多啦~
如何进行数据清洗
1、对缺失值进行清洗
一般来说,缺失值是最常见的数据问题,处理缺失值也有很多办法,我们需要按照步骤来做,第一就是确定缺失值范围:计算每个字段的缺失值比例,然后根据缺失比例和字段重要性,制定策略。
2、去除不需要的字段
实际操作非常简单,可以直接删除,但需要提醒您,在清理数据时,每做一步都备份,或者在小规模数据上成功测试,然后处理所有数据,如果删除错误数据会后悔。
3、填充缺失内容
原因在于,一些缺失值可以通过三种方式被填充,即根据商业知识或经验推测填补缺失值、用相同的指标的计算结果(均值、中位数、众数等)填充缺失值、以不同指标的计算结果填充缺失值。
4、重新取数
由于某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。这就是缺失值清洗的步骤。
5、关联性验证
若您的数据来自多种来源,则必须进行关联验证。如果不关联,这个数据据需要我们清洗。
现在你对数据清洗有更深的理解吗?数据清洗是数据分析中非常重要的一步,其重要性不容忽视。但是使用合适的工具可以使数据清洗更加高效方便。正所谓,工欲善其事,必先利其器。借助工具进行数据清洗是非常必要的,思迈特软件Smartbi一站式大数据分析平台的数据清洗功能就很值得推荐。强大的数据处理功能、分布式计算架构,还支持内置排序、去重、映射、行列合并、行列转换聚合、去空值等数据预处理功能。