flume -> kafka -> strom/spark -> HDFS/RIDS
1. flume: 接受7*24h的数据流,然后丢给storm/spark进行计算。
2. kafka: storm/spark可能来不及处理这些流水信息,这时需要kafka对数据进行缓存
3. hdfs/rids:分布式存储