摘要: 官方这么说的[Since Spark 1.2] Configuring write ahead logs - Since Spark 1.2, we have introduced write ahead logs for achieving strong fault-tolerance guara... 阅读全文
posted @ 2015-05-14 16:11 HarkLee 阅读(872) 评论(0) 推荐(0) 编辑
摘要: 进行节点的数据传递,或者保存数据时都会进行序列化。spark默认的是org.apache.spark.serializer.JavaSerializer。而我们要修改成org.apache.spark.serializer.KryoSerializer。 阅读全文
posted @ 2015-05-14 14:22 HarkLee 阅读(2395) 评论(0) 推荐(0) 编辑
摘要: 如果你的streaming处理数据的时间间隔比较小,并且没有窗口操作,那么可以考虑不使用序列化,这样可以减少内存和cpu的使用,加快数据处理效率 阅读全文
posted @ 2015-05-14 12:02 HarkLee 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 官方是这么说的:Cluster resources can be under-utilized if the number of parallel tasks used in any stage of the computation is not high enough. For example, ... 阅读全文
posted @ 2015-05-14 11:08 HarkLee 阅读(2758) 评论(0) 推荐(0) 编辑
摘要: val numStreams = 5val kafkaStreams = (1 to numStreams).map { i => KafkaUtils.createStream(...) }val unifiedStream = streamingContext.union(kafkaStream... 阅读全文
posted @ 2015-05-14 11:06 HarkLee 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 使用spark.streaming.receiver.maxRate来限制你的吞吐的最大信息量。因为当streaming程序的数据源的数据量突然变大巨大,可能会导致streaming被撑住导致吞吐不过来,所以可以考虑对于最大吞吐做一下限制。 阅读全文
posted @ 2015-05-14 10:10 HarkLee 阅读(2170) 评论(0) 推荐(0) 编辑
摘要: 从官方的Programming Guides中看到的我理解streaming中的checkpoint有两种,一种指的是metadata的checkpoint,用于恢复你的streaming;一种是rdd的checkpoint的;下面的代码指的是第一种:// Function to create an... 阅读全文
posted @ 2015-05-14 09:49 HarkLee 阅读(1735) 评论(0) 推荐(0) 编辑