摘要: Spark性能优化的10大问题及其解决方案 近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下面对一些优化的思路方法进行梳理。 近期优化 阅读全文
posted @ 2017-12-13 17:19 信方 阅读(5955) 评论(0) 推荐(0) 编辑
摘要: 开发调优篇 原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的 阅读全文
posted @ 2017-12-13 17:09 信方 阅读(1332) 评论(0) 推荐(0) 编辑
摘要: CDH大数据集群问题问题分析与解决方案 问题描述:Hive提交任务,一直卡在Reduce阶段,进度缓慢。 日志分析:NodeManager节点产生的usercache所在分区空间不足,导致进程异常退出。 解决方案:1)调整各个NodeManager节点的配置-/opt/yarn/nm、/spark/ 阅读全文
posted @ 2017-12-13 16:14 信方 阅读(381) 评论(0) 推荐(0) 编辑