摘要:
官方这么说的[Since Spark 1.2] Configuring write ahead logs - Since Spark 1.2, we have introduced write ahead logs for achieving strong fault-tolerance guara... 阅读全文
摘要:
进行节点的数据传递,或者保存数据时都会进行序列化。spark默认的是org.apache.spark.serializer.JavaSerializer。而我们要修改成org.apache.spark.serializer.KryoSerializer。 阅读全文
摘要:
如果你的streaming处理数据的时间间隔比较小,并且没有窗口操作,那么可以考虑不使用序列化,这样可以减少内存和cpu的使用,加快数据处理效率 阅读全文
摘要:
官方是这么说的:Cluster resources can be under-utilized if the number of parallel tasks used in any stage of the computation is not high enough. For example, ... 阅读全文
摘要:
val numStreams = 5val kafkaStreams = (1 to numStreams).map { i => KafkaUtils.createStream(...) }val unifiedStream = streamingContext.union(kafkaStream... 阅读全文
摘要:
使用spark.streaming.receiver.maxRate来限制你的吞吐的最大信息量。因为当streaming程序的数据源的数据量突然变大巨大,可能会导致streaming被撑住导致吞吐不过来,所以可以考虑对于最大吞吐做一下限制。 阅读全文
摘要:
从官方的Programming Guides中看到的我理解streaming中的checkpoint有两种,一种指的是metadata的checkpoint,用于恢复你的streaming;一种是rdd的checkpoint的;下面的代码指的是第一种:// Function to create an... 阅读全文