摘要: 一、Spark Streaming Spark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。数据可以从许多来源(如Kafka,Flume,Kinesis或TCP sockets)中提取,并且可以使用以高级函数表示的复杂算法进行处理map,例如re 阅读全文
posted @ 2019-09-04 13:33 console.log('宇航') 阅读(605) 评论(0) 推荐(0) 编辑
摘要: 一、什么是Zookeeper? ZooKeeper 是一个开源Apache项目,提供集中式服务,用于在分布式系统中的大型集群上提供集中服务,用于维护命名和配置数据,并在分布式系统中提供灵活,强大的同步。Zookeeper 跟踪 Kafka 集群节点的状态,并跟踪Kafka主题,分区等。Zookeep 阅读全文
posted @ 2019-09-04 11:32 console.log('宇航') 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 一、什么是Kafka? Apache Kafka是一个社区分布式事件流平台,能够每天处理数万亿个事件。Kafka最初被设想为消息传递队列,它基于分布式提交日志的抽象。自2011年由LinkedIn创建并开源以来,Kafka已迅速从消息队列发展成为一个成熟的事件流平台。用作 LinkedIn 的活动流 阅读全文
posted @ 2019-09-04 11:00 console.log('宇航') 阅读(187) 评论(0) 推荐(0) 编辑