Spark Streaming揭秘 Day18 空RDD判断及程序中止机制

Spark Streaming揭秘 Day18

空RDD判断及程序中止机制

空RDD的处理

从API我们可以知道在SparkStreaming中，对于RDD的操作一般都是在foreachRDD和Transform方法里。
在使用foreachRDD时，有一个风险，就是如果RDD为空可能会导致计算失败，那么应用如何来判断为空呢？

方法1：使用RDD.count

count方法会直接触发一个Job，代价有些大

方法2：调用RDD.paritions.isEmpty

我们可以看到partitions是一个方法，返回的是一个数组，那么isEmpty实际上就仅仅是对数组长度的判断，非常的高效。

这个判断是否有效？我们进入BlockGenerator，发现如果数据为空时，默认会不生成Block，也就是不会生成partition。所以说，从数据生成机制看，方法2是有效的。

方法3：调用RDD.isEmpty

方法2比较高效，但是也有一个隐患，就是进行shuffle操作，当并行度不变时，可能出现有partition没数据的情况，会导致方法2判断失效。
方法3，这个方法是目前来看最完备的方式。首先，对于数组为空的情况，在第一个条件处进行了短路，否则会执行take操作，来实际判断是否有数，但是take()方法内部还是会有Job生成，所以也会产生一定的效率影响。