……

2020年6月3日
摘要: https://pan.baidu.com/s/10II0njHuy8dSQYxfXl-iqA 阅读全文
posted @ 2020-06-03 18:15 大码王 阅读(130) 评论(0) 推荐(0) 编辑
摘要: shuffle调优 调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发 阅读全文
posted @ 2020-06-03 17:58 大码王 阅读(635) 评论(0) 推荐(0) 编辑
摘要: 前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能 阅读全文
posted @ 2020-06-03 17:46 大码王 阅读(255) 评论(0) 推荐(0) 编辑
摘要: Spark作业基本运行原理 详细原理见上图。我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置 阅读全文
posted @ 2020-06-03 17:44 大码王 阅读(239) 评论(0) 推荐(0) 编辑
复制代码