Spark Streaming揭秘 Day7 再探Job Scheduler

Spark Streaming揭秘 Day7

再探Job Scheduler

今天，我们对Job Scheduler再进一步深入一下，对一些更加细节的源码进行分析。

Job Scheduler启动

在Job Scheduler的启动代码中，我们发现其采用了新建Thread的方式来启动代码

在更早的Spark版本中，并没有采用这种方式，为啥要这么多做？
从注释中，很明确的指出了，这么做的原因主要是对于变量的隔离
通过启动线程，可以使运行和用户处理线程没有关系，从而避免用户线程中变量设置的干扰

从变量定义可以看到，使用了ThreadLocal，从而保证了变量是私有的

线程池

根据前面几篇的描述，我们知道在Job Scheduler中运行Job是采用了线程池的方式，下面是线程池jobExecutor的具体定义

我们发现，线程池的默认大小是1，这个是由SparkStreaming默认的特性决定了，也就是说在默认情况下，Batch Duration之间的Job会发生等待。
但是，当有Batch Duration需要有多个Output操作的话，我们可以提高并行度，提高性能。