会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
cac2020
博客园
首页
新随笔
管理
2019年7月3日
【电商日志项目之四】数据清洗-ETL
摘要: 环境 hadoop-2.6.5 首先要知道为什么要做数据清洗?通过各个渠道收集到的数据并不能直接用于下一步的分析,所以需要对这些数据进行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证等处理操作,转换成可用的数据。具体要做的工作可以参考文章:数据清洗的一些梳理 当了解ETL之后,有
阅读全文
posted @ 2019-07-03 09:10 cac2020
阅读(1270)
评论(0)
推荐(0)
编辑
公告