摘要:
Storm是一个免费开源、分布式、高容错的实时计算系统,Twitter开发贡献给社区的。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。 Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。特点1、Storm这是一个分布式的、容错... 阅读全文
摘要:
Spark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时、数据挖掘与机器学习应用场景Spark和HadoopSpark是一个针对超大数据集合的低延迟的集群分布式计算... 阅读全文
摘要:
Kafka 是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可在廉价PC Server上搭建起大规模消息系统。Kafka具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费Kakfa特点:解耦:消息系统在处理过程中插入一个隐含、基于数据的接口层。冗余... 阅读全文
摘要:
1、 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。2、一个独立的Flume进程称之为Agent,包含组件Source、Channel、Sink SourceFl... 阅读全文
摘要:
整体数据流图 阅读全文