摘要:
主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。 开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle调优,面向的是对Spark的原理有较深 阅读全文
摘要:
spark任务运行原理 一:spark运行组件的介绍 如下图为分布式spark应用中的组件: 1 驱动器节点的任务: (1)-把用户程序转化为任务(多个物理服务器执行的单元); Driver进程首先构造SparkConf,接着创建SparkContext。SparkContext创建时,会构造DAG 阅读全文