DirectStream、Stream的区别-SparkStreaming源码分析02

转http://hadoop1989.com/2016/03/15/KafkaStreaming/

在Spark1.3之前，默认的Spark接收Kafka数据的方式是基于Receiver的，在这之后的版本里，推出了Direct Approach，现在整理一下两种方式的异同。

1. Receiver-based Approach

示例代码：

import org.apache.spark.streaming.kafka._

val kafkaStream = KafkaUtils.createStream(streamingContext,

 [ZK quorum], [consumer group id], [per-topic number of Kafka partitions to consume])

2. Direct Approach (No Receivers)

示例代码：

 import org.apache.spark.streaming.kafka._

 val directKafkaStream = KafkaUtils.createDirectStream[
 [key class], [value class], [key decoder class], [value decoder class] ](
 streamingContext, [map of Kafka parameters], [set of topics to consume])

源码实现

1、 KafkaUtils.createStream

首先从源码层面来看，其主要调用栈顺序：

KafkaUtils.createStream--->createStream--->new KafkaInputDStream--->new KafkaReceiver

KafkaReceiver类继承了Receiver，当Reciver被调用起来时，执行onStart()方法，MessageHandler负责将收到的数据进行存储。执行流程如下：

创建createStream，Receiver被调起执行
连接ZooKeeper，读取相应的Consumer、Topic配置信息等
通过consumerConnector连接到Kafka集群，收取指定topic的数据
创建KafkaMessageHandler线程池来对数据进行处理，通过ReceiverInputDStream中的方法，将数据转换成BlockRDD,供后续计算