摘要:
解决问题 1)容错 2)延时 3)监控 概述 官网:http://flume.apache.org Flume是由Cloudera提供的一个分布式、高可靠、高可用的服务,用于分布式的海量日志的高收集、聚合、移动系统。 Agent:source,channel,sink 设计目标: 可靠性 扩展性 管 阅读全文
摘要:
离线计算和实时计算对比 1)数据来源 离线:HDFS历史数据 数据量比较大 实时:消息队列(Kafka),实时新增/修改记录过来的某一笔数据 2)处理过程 离线:MapReduce: map+reduce 实时:Spark(DStream/SS) 3)处理速度 离线:慢 实时:快速 4)进程 离线: 阅读全文