分布式集群部署常用框架概述

flume -> kafka -> strom/spark -> HDFS/RIDS

1. flume: 接受7*24h的数据流,然后丢给storm/spark进行计算。

2. kafka: storm/spark可能来不及处理这些流水信息,这时需要kafka对数据进行缓存

3. hdfs/rids:分布式存储

 

posted @ 2016-04-25 15:51  人月神话vs  阅读(260)  评论(0编辑  收藏  举报