摘要:
摘抄自:https://www.cnblogs.com/qingyunzong/p/8973707.html 一、概述 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要 阅读全文
摘要:
摘抄自:https://www.cnblogs.com/qingyunzong/p/8946637.html 一、概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能 阅读全文
摘要:
摘抄自:https://www.cnblogs.com/qingyunzong/p/8946637.html 一、概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffl 阅读全文
摘要:
摘抄自:https://www.cnblogs.com/qingyunzong/p/8946637.html 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题 阅读全文
摘要:
摘抄自:https://www.cnblogs.com/qingyunzong/p/8946637.html 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型 阅读全文
摘要:
摘自:https://www.cnblogs.com/qingyunzong/p/8945933.html 一、Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与Cluste 阅读全文