课题day3-day4(数据清洗+kattle工具)
一,什么是数据清洗:
由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此, 数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始 数据的话,会严重影响数据决策的准确性和效率。因此,对原始数据进 行有效的清洗是大数据分析和应用过程中的关键环节。
二,什么是ETL:
对于企业来说,数据已经成为一种重要的战略资源,为了充 分利用好自己的数据资源,使用ETL技术进行数据分析已成为企业 决策的重要工作内容之一。ETL是将业务系统的数据经过抽取、清 洗转换之后加载到数据仓库的过程,目的是将企业中的不完整数 据、重复数据以及错误数据等脏数据内容通过清洗转换操作转变 为符合企业要求的数据,便于为企业的决策提供分析依据
三,Kettle工具的基本使用:
1.安装工具
2.打开工具
3.转换与作业
四,数据抽取,数据清洗的实例:
1.清除完全重复
2.清除不完全重复
3.清除空数据