摘要:
并行度 对于*ByKey等需要shuffle而生成的RDD,其Partition数量依如下顺序确定:1. 方法的第二个参数 > 2. spark.default.parallelism参数 > 3. 所有依赖的RDD中,Partition最多的RDD的Partition的数量。 对于其他的RDD则其 阅读全文
摘要:
转自:http://blog.cheyo.net/104.html 广播变量 背景 一般Task大小超过10K时(Spark官方建议是20K),需要考虑使用广播变量进行优化。大表小表Join,小表使用广播的方式,减少Join操作。 参考:Spark广播变量与累加器 Local Dir 背景 shuf 阅读全文
摘要:
序列化 背景: 在以下过程中,需要对数据进行序列化: 性能优化点: Spark默认的序列化类型是Java序列化。Java序列化的优势是兼容性好,不需要自已注册类。劣势是性能差。为提升性能,建议使用Kryo序列化替代默认的Java序列化。Kryo序列化的优势是速度快,体积小,劣势是兼容性差,需要自已注 阅读全文
摘要:
In this tutorial, we show you how to convert an IP address to its decimal equivalent in Java, and vice versa. For examples : Bash Bash 1. IP Address t 阅读全文
摘要:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 阅读全文