SparkCore中的Key-Value 类型 RDD 的数据分区器

1.1 HashPartitioner

HashPartitioner分区的原理：对于给定的key，计算其hashCode，并除以分区的个数取余，如果余数小于 0，则用余数+分区的个数（否则加0），最后返回的值就是这个key所属的分区ID。

1.2 RangePartitioner

HashPartitioner 分区弊端：可能导致每个分区中数据量的不均匀，极端情况下会导致某些分区拥有 RDD 的全部数据。比如我们前面的例子就是一个极端, 他们都进入了 0 分区.

RangePartitioner 作用：将一定范围内的数映射到某一个分区内，尽量保证每个分区中数据量的均匀，而且分区与分区之间是有序的，一个分区中的元素肯定都是比另一个分区内的元素小或者大，但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。实现过程为：

第一步：先从整个 RDD 中抽取出样本数据，将样本数据排序，计算出每个分区的最大 key 值，形成一个Array[KEY]类型的数组变量 rangeBounds；(边界数组).

第二步：判断key在rangeBounds中所处的范围，给出该key值在下一个RDD中的分区id下标；该分区器要求 RDD 中的 KEY 类型必须是可以排序的.

比如[1,100,200,300,400]，然后对比传进来的key，返回对应的分区id。

1.3 自定义分区器

要实现自定义的分区器，你需要继承 org.apache.spark.Partitioner, 并且需要实现下面的方法:

numPartitions

该方法需要返回分区数, 必须要大于0.

getPartition(key)

返回指定键的分区编号(0到numPartitions-1)。

equals

Java 判断相等性的标准方法。这个方法的实现非常重要，Spark 需要用这个方法来检查你的分区器对象是否和其他分区器实例相同，这样 Spark 才可以判断两个 RDD 的分区方式是否相同

hashCode

如果你覆写了equals, 则也应该覆写这个方法.

posted @ 2022-02-01 22:39 xingmeng1 阅读(51) 评论(0) 编辑收藏举报

刷新页面返回顶部

（评论功能已被禁用）

相关博文：

· Spark Core简介

· SparkCore 对共享变量也提供了两种支持：1. 累加器 2. 广播变量

· 键值对RDD数据分区

· 第五章_Spark核心编程_Rdd_分区器

· Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？

公告

昵称： xingmeng1
园龄： 3年1个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

随笔档案

阅读排行榜

评论排行榜

1. 多线程导入excel(1)

xingmeng1