头发浓密似羊毛

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

第一是大数据的数据获取方式:

数据清洗是将重复,多余的数据筛选清除,将缺失的数据补全完整,将错误的数据纠正或者删除;最后整理成我们可以进一步使用和加工的数据保存到数据库中。

所谓的数据清洗也就是ETL处理,包括抽取Extract,转换TRANSFORM,加载LOAD这三大法宝。

数据清洗的步骤一般都包括:分析数据,缺失值处理,异常值处理,去重处理,噪音数据处理。

 

posted on 2019-01-13 16:39  头发浓密似羊毛  阅读(621)  评论(0编辑  收藏  举报