Spark Streaming揭秘 Day14 State状态管理

Spark Streaming揭秘 Day14

State状态管理

今天让我们进入下SparkStreaming的一个非常好用的功能，也就State相关的操作。State是SparkStreaming中用来管理历史数据的结构。目前主要提供了updateStateByKey和MapWithStateRDD两个方法。

updateStateByKey

首先，让我们先找一下这个方法的位置。

我们可以发现updateStateByKey这个方法并不在DStream中，而是在PairDStreamFunctions中。

Snip20160526_10

为什么在不同类中的方法可以组合起来，这个就不得不提一下scala中非常厉害的隐式转换特性，在如下部分，希望大家能深入研究下。

Snip20160526_11

从方法的位置，我们可以很明确的知道这个方法必须是针对keyValue结构的。

进入到方法内部，我们首先看到其使用到了defaultPartitoner，默认是采用HashPartitioner，特点是效率高。

Snip20160526_13

下面进入计算的关键代码，也就是StateDStream中的compute方法。

Snip20160526_15

从上述的计算逻辑中，我们会发现一个明显的弱点：其核心逻辑是一个cogroup，具体来说是在每次计算时，都按照key对所有数据进行扫描和集合。好处是逻辑简单，坏处是有性能问题，每次多要全部重新扫描下，随着数据量越来越大，性能会越来越低，所以不能常使用。
所以这个方法主要针对小数据集的处理方法，关于这个效率问题有没有解决方法，我们看看下一个方法。