随笔档案「2016年7月17日」：一次Spark应用程序参数优化案例 ... - XGogo

2016年7月17日

摘要：并行度对于*ByKey等需要shuffle而生成的RDD，其Partition数量依如下顺序确定：1. 方法的第二个参数 > 2. spark.default.parallelism参数 > 3. 所有依赖的RDD中，Partition最多的RDD的Partition的数量。对于其他的RDD则其阅读全文

posted @ 2016-07-17 18:13 XGogo 阅读(2733) 评论(0) 推荐(0)

Spark性能优化(2)——广播变量、本地缓存目录、RDD操作、数据倾斜

摘要：转自：http://blog.cheyo.net/104.html 广播变量背景一般Task大小超过10K时（Spark官方建议是20K），需要考虑使用广播变量进行优化。大表小表Join，小表使用广播的方式，减少Join操作。参考：Spark广播变量与累加器 Local Dir 背景 shuf 阅读全文

posted @ 2016-07-17 18:03 XGogo 阅读(365) 评论(0) 推荐(0)

Spark性能优化(1)——序列化、内存、并行度、数据存储格式、Shuffle

摘要：序列化背景：在以下过程中，需要对数据进行序列化：性能优化点： Spark默认的序列化类型是Java序列化。Java序列化的优势是兼容性好，不需要自已注册类。劣势是性能差。为提升性能，建议使用Kryo序列化替代默认的Java序列化。Kryo序列化的优势是速度快，体积小，劣势是兼容性差，需要自已注阅读全文

posted @ 2016-07-17 18:01 XGogo 阅读(1066) 评论(0) 推荐(0)

Java – Convert IP address to Decimal Number

摘要： In this tutorial, we show you how to convert an IP address to its decimal equivalent in Java, and vice versa. For examples : Bash Bash 1. IP Address t 阅读全文

posted @ 2016-07-17 17:50 XGogo 阅读(871) 评论(0) 推荐(0)

Java IP地址字符串与BigInteger的转换, 支持IPv6

摘要： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 阅读全文

posted @ 2016-07-17 17:47 XGogo 阅读(1457) 评论(0) 推荐(0)

尧字节

明翼

公告