摘要: 数据倾斜解决方案 目录 "数据倾斜解决方案" "聚合源数据" "提高shuffle操作的reduce并行度" "使用随机key实现双重聚合" "将reduce join转为map join" "sample采样倾斜key进行两次join" "使用随机数以及扩容表进行join" 聚合源数据 1. 第一 阅读全文
posted @ 2017-07-13 09:35 杨同不爱吃洋葱 阅读(722) 评论(0) 推荐(0) 编辑
摘要: troubleShooting "troubleShooting" "控制shuffle reduce端缓冲大小以避免OOM" "JVM GC导致shuffle文件拉取失败" "Yarn队列资源不足导致Application直接失败" "各种序列化导致的报错" "算子函数返回NULL导致的问题" " 阅读全文
posted @ 2017-07-13 09:28 杨同不爱吃洋葱 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 算子调优 目录 "算子调优" "map与mapPartitions" "filter过后使用coalesce" "foreachPartition优化写数据库" "repartition解决Spark SQL并行度过低" "reduceByKey的Map端本地聚合" map与mapPartition 阅读全文
posted @ 2017-07-13 09:25 杨同不爱吃洋葱 阅读(449) 评论(0) 推荐(0) 编辑
摘要: Shuffle调优 目录 "Shuffle调优" "调节Map端内存缓冲与Reduce端内存占比" "spark.shuffle.sort.bypassMergeThreshold" 调节Map端内存缓冲与Reduce端内存占比 问题 默认情况下,shuffle的map task,输出到磁盘文件的时 阅读全文
posted @ 2017-07-13 09:21 杨同不爱吃洋葱 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 性能调优 目录 "性能调优" "调节并行度" "重构RDD与持久化" "广播大变量" "使用Kryo序列化" "使用fastutil优化数据格式" "调节数据本地化等待时长" "JVM调优之降低cache操作的内存占比" "JVM调优之调节Executor堆外内存与连接等待时长" 调节并行度 并行度 阅读全文
posted @ 2017-07-13 09:17 杨同不爱吃洋葱 阅读(1444) 评论(0) 推荐(1) 编辑