2015 年 5月 14 日随笔档案 - HarkLee

2015年5月14日

摘要：官方这么说的[Since Spark 1.2] Configuring write ahead logs - Since Spark 1.2, we have introduced write ahead logs for achieving strong fault-tolerance guara... 阅读全文

posted @ 2015-05-14 16:11 HarkLee 阅读(872) 评论(0) 推荐(0) 编辑

spark优化：spark.serializer修改序列化方式

摘要：进行节点的数据传递，或者保存数据时都会进行序列化。spark默认的是org.apache.spark.serializer.JavaSerializer。而我们要修改成org.apache.spark.serializer.KryoSerializer。阅读全文

posted @ 2015-05-14 14:22 HarkLee 阅读(2395) 评论(0) 推荐(0) 编辑

streaming优化：禁用序列化

摘要：如果你的streaming处理数据的时间间隔比较小，并且没有窗口操作，那么可以考虑不使用序列化，这样可以减少内存和cpu的使用，加快数据处理效率阅读全文

posted @ 2015-05-14 12:02 HarkLee 阅读(193) 评论(0) 推荐(0) 编辑

streaming优化：spark.default.parallelism调整处理并行度

摘要：官方是这么说的：Cluster resources can be under-utilized if the number of parallel tasks used in any stage of the computation is not high enough. For example, ... 阅读全文

posted @ 2015-05-14 11:08 HarkLee 阅读(2758) 评论(0) 推荐(0) 编辑

streaming优化：并行接收数据

摘要： val numStreams = 5val kafkaStreams = (1 to numStreams).map { i => KafkaUtils.createStream(...) }val unifiedStream = streamingContext.union(kafkaStream... 阅读全文

posted @ 2015-05-14 11:06 HarkLee 阅读(332) 评论(0) 推荐(0) 编辑

streaming优化：spark.streaming.receiver.maxRate

摘要：使用spark.streaming.receiver.maxRate来限制你的吞吐的最大信息量。因为当streaming程序的数据源的数据量突然变大巨大，可能会导致streaming被撑住导致吞吐不过来，所以可以考虑对于最大吞吐做一下限制。阅读全文

posted @ 2015-05-14 10:10 HarkLee 阅读(2170) 评论(0) 推荐(0) 编辑

spark streaming中使用checkpoint

摘要：从官方的Programming Guides中看到的我理解streaming中的checkpoint有两种，一种指的是metadata的checkpoint，用于恢复你的streaming；一种是rdd的checkpoint的；下面的代码指的是第一种：// Function to create an... 阅读全文

posted @ 2015-05-14 09:49 HarkLee 阅读(1735) 评论(0) 推荐(0) 编辑

HarkLee

打酱油

公告