摘要: 环境 hadoop-2.6.5 首先要知道为什么要做数据清洗?通过各个渠道收集到的数据并不能直接用于下一步的分析,所以需要对这些数据进行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证等处理操作,转换成可用的数据。具体要做的工作可以参考文章:数据清洗的一些梳理 当了解ETL之后,有 阅读全文
posted @ 2019-07-03 09:10 cac2020 阅读(1270) 评论(0) 推荐(0) 编辑