2017 年 12月 13 日随笔档案 - 信方

2017年12月13日

摘要： Spark性能优化的10大问题及其解决方案近期优化了一个spark流量统计的程序，此程序跑5分钟小数据量日志不到5分钟，但相同的程序跑一天大数据量日志各种失败。经优化，使用160 vcores + 480G memory，一天的日志可在2.5小时内跑完，下面对一些优化的思路方法进行梳理。近期优化阅读全文

posted @ 2017-12-13 17:19 信方阅读(5955) 评论(0) 推荐(0) 编辑

Spark记录-Spark性能优化（开发、资源、数据、shuffle）

摘要：开发调优篇原则一：避免创建重复的RDD 通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的阅读全文

posted @ 2017-12-13 17:09 信方阅读(1332) 评论(0) 推荐(0) 编辑

CM记录-优化配置解决Reduce卡顿问题

摘要： CDH大数据集群问题问题分析与解决方案问题描述：Hive提交任务，一直卡在Reduce阶段，进度缓慢。日志分析：NodeManager节点产生的usercache所在分区空间不足，导致进程异常退出。解决方案：1）调整各个NodeManager节点的配置-/opt/yarn/nm、/spark/ 阅读全文

posted @ 2017-12-13 16:14 信方阅读(381) 评论(0) 推荐(0) 编辑

信方互联网硬汉

行走互联，硬汉信方

公告