ETL的数据来源,处理,保存

 

1.ETL

  数据来源:HDFS

  处理方式:Mapreduce

  数据保存:HBase

   

 

2.为什么保存在Hbase中

  数据字段格式不唯一/不相同/不固定,采用hbase的动态列的功能非常适合
  因为我们的分析一般情况下,是对于部分事件数据进行分析的,不需要所有的数据,希望将数据的初步过滤放到服务器上进行操作,所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
  

  

 

3.数据处理  

  MapReduce
    数据流: hbase -> mapreduce -> mysql
  Hive
    数据流:hbase -> hive -> hdfs -> sqoop -> mysql

 

4.来源HDFS

  这些数据是在flume中收集来的数据,这些数据在前面已经被上传到HDFS。

  

posted @ 2017-08-22 21:54  因为专注。所以专业  阅读(431)  评论(0编辑  收藏  举报