课题day3-day4(数据清洗+kattle工具)

一,什么是数据清洗:

由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此, 数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始 数据的话,会严重影响数据决策的准确性和效率。因此,对原始数据进 行有效的清洗是大数据分析和应用过程中的关键环节。

 

 

 

二,什么是ETL:

对于企业来说,数据已经成为一种重要的战略资源,为了充 分利用好自己的数据资源,使用ETL技术进行数据分析已成为企业 决策的重要工作内容之一。ETL是将业务系统的数据经过抽取、清 洗转换之后加载到数据仓库的过程,目的是将企业中的不完整数 据、重复数据以及错误数据等脏数据内容通过清洗转换操作转变 为符合企业要求的数据,便于为企业的决策提供分析依据

 

三,Kettle工具的基本使用:

1.安装工具

 

2.打开工具

 

 

 3.转换与作业

 

 

 

 

 

 

四,数据抽取,数据清洗的实例:

1.清除完全重复

 

 

 2.清除不完全重复

 

 

 

 

  3.清除空数据

 

posted @ 2021-06-25 11:27  RenVei  阅读(114)  评论(0编辑  收藏  举报