摘要: Spark性能调试是使用Spark的用户在进行大数据处理的时候必须面对的问题,性能调优的方法有很多,这里首先介绍一种常见的调优问题-小分区合并问题。 一:小分区合并问题介绍 在使用Spark进行数据处理的过程中,常常会使用filter方法来对数据进行一些预处理,过滤掉一些不符合条件的数据。 在使用该 阅读全文
posted @ 2020-03-31 14:31 山上有风景 阅读(1841) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://www.cnblogs.com/qingyunzong/p/8987065.html 一:分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区。 分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务tas 阅读全文
posted @ 2020-03-31 10:41 山上有风景 阅读(302) 评论(0) 推荐(0) 编辑