摘要: Storm是一个免费开源、分布式、高容错的实时计算系统,Twitter开发贡献给社区的。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。 Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。特点1、Storm这是一个分布式的、容错... 阅读全文
posted @ 2015-11-09 19:44 开心玩数据 阅读(2260) 评论(0) 推荐(0) 编辑
摘要: Spark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时、数据挖掘与机器学习应用场景Spark和HadoopSpark是一个针对超大数据集合的低延迟的集群分布式计算... 阅读全文
posted @ 2015-11-09 19:30 开心玩数据 阅读(2090) 评论(0) 推荐(0) 编辑
摘要: Kafka 是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可在廉价PC Server上搭建起大规模消息系统。Kafka具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费Kakfa特点:解耦:消息系统在处理过程中插入一个隐含、基于数据的接口层。冗余... 阅读全文
posted @ 2015-11-09 19:21 开心玩数据 阅读(7694) 评论(1) 推荐(1) 编辑
摘要: 1、 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。2、一个独立的Flume进程称之为Agent,包含组件Source、Channel、Sink SourceFl... 阅读全文
posted @ 2015-11-09 19:04 开心玩数据 阅读(3525) 评论(2) 推荐(0) 编辑
摘要: 整体数据流图 阅读全文
posted @ 2015-11-09 18:58 开心玩数据 阅读(1452) 评论(0) 推荐(1) 编辑