摘要: 主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。 开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle调优,面向的是对Spark的原理有较深 阅读全文
posted @ 2018-11-28 21:53 上海小墨子 阅读(559) 评论(0) 推荐(0) 编辑
摘要: spark任务运行原理 一:spark运行组件的介绍 如下图为分布式spark应用中的组件: 1 驱动器节点的任务: (1)-把用户程序转化为任务(多个物理服务器执行的单元); Driver进程首先构造SparkConf,接着创建SparkContext。SparkContext创建时,会构造DAG 阅读全文
posted @ 2018-11-28 21:22 上海小墨子 阅读(470) 评论(0) 推荐(0) 编辑