ETL的数据来源，处理，保存

1.ETL

　　数据来源：HDFS

　　处理方式：Mapreduce

　　数据保存：HBase

2.为什么保存在Hbase中

　　数据字段格式不唯一/不相同/不固定，采用hbase的动态列的功能非常适合
　　因为我们的分析一般情况下，是对于部分事件数据进行分析的，不需要所有的数据，希望将数据的初步过滤放到服务器上进行操作，所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
　　

3.数据处理　　

　　MapReduce
　　　　数据流: hbase -> mapreduce -> mysql
　　Hive
　　　　数据流：hbase -> hive -> hdfs -> sqoop -> mysql

4.来源HDFS

　　这些数据是在flume中收集来的数据，这些数据在前面已经被上传到HDFS。

posted @ 2017-08-22 21:54 因为专注。所以专业阅读(431) 评论(0) 编辑收藏举报

刷新页面返回顶部

因为专注。所以专业