第五章_Spark核心编程_Rdd_分区器

目录

1. 什么是Rdd的分区器？
2. Spark 分区器的种类？
3. note
4. Spark分区器和MapReduce分区器的区别(自定义分区器)?
5. 代码示例

1. 什么是Rdd的分区器？

  *      key-value类型的Rdd在Shuffle时,会根据key的特质进行分区
  *      分区器就是 Partitioner的一个实现类
  *           通过指定 numPartitions 确定分区个数
  *                  getPartition(key: Any) 确定分区规则

2. Spark 分区器的种类？

复制代码

  *     HashPartitioner(默认分区器)
  *         分区规则 : hash(key) % numPartitions
  *         缺点 : 当 大量key相同时,会导致分区不均,导致数据倾斜
  *
  *     RangePartitioner
  *         没研究明白,待补充
  *
  *     自定义分区器
  *         实现 Partitioner接口,自定义

复制代码

3. note

  *   1.Key-Value类型RDD才有分区器,非Key-Value类型RDD的分区值是None
  *   2.每个RDD的分区编号范围为0~numPartitions-1,其决定数据所在分区

4. Spark分区器和MapReduce分区器的区别(自定义分区器)?

  *     MapReduce :
  *         def getPartition(key: Nothing, value: Nothing, numPartitions: Int): Int
  *         可以根据 key,value 进行分区
  *     Spark :
  *         def getPartition(key: Any): Int
  *         只能根据 key 进行分区

5. 代码示例

复制代码

  //自定义分区器
  //必须是 org.apache.spark.Partitioner的实现类
  //需求 : 将key按进入分区器的序号分区(将key打散)
  class custPartitioner(partitions: Int) extends Partitioner {
    override def numPartitions: Int = partitions

    var index = 0

    override def getPartition(key: Any): Int = {
      index += 1
      index % numPartitions
    }
  }

  /*HashPartitioner*/
  object HashPartitionerTest extends App {

    val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")

    val sc: SparkContext = new SparkContext(sparkconf)

    val rdd: RDD[(Int, String)] = sc.makeRDD(List((1, "x"), (1, "x"), (1, "x"), (1, "x"), (1, "x"), (2, "x"), (2, "x")), 2)

    //使用 HashPartitioner 分区器
    //@partitions 指定分区个数
    val rdd1: RDD[(Int, String)] = rdd.partitionBy(new HashPartitioner(3))

    //使用 RangePartitioner 分区器
    val rdd2: RDD[(Int, String)] = rdd.partitionBy(new RangePartitioner(3, rdd))

    //使用 自定义分区器
    val rdd3: RDD[(Int, String)] = rdd.partitionBy(new custPartitioner(3))

    // 使用 自定义分区器
    // 使用匿名内部类
    // 根据 key的奇偶性分区
    private val rdd4: RDD[(Int, String)] = rdd.partitionBy(
      new Partitioner {
        override def numPartitions: Int = 3 //指定分区个数

        override def getPartition(key: Any): Int = {
          if (key.asInstanceOf[Int].abs % 2 == 0) {
            0
          } else {
            1
          }
        }
      }
    )
    
    //rdd1.saveAsTextFile("Spark_319/src/output/01")
    //rdd2.saveAsTextFile("Spark_319/src/output/02")
    rdd3.saveAsTextFile("Spark_319/src/output/03")

    sc.stop()
  }

复制代码

复制代码

-- HashPartitioner
part-00000
part-00001
    (1,x)
    (1,x)
    (1,x)
    (1,x)
    (1,x)
part-00002
    (2,x)
    (2,x)

-- custPartitioner
part-00000
    (1,x)
    (2,x)
part-00001
    (1,x)
    (1,x)
    (2,x)
part-00002
    (1,x)
    (1,x)

复制代码

posted @ 2022-04-02 18:07 学而不思则罔！阅读(63) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 第五章_Spark核心编程_Rdd_转换算子_keyValue型_partitionBy

· 第五章_Spark核心编程_Rdd五个核心属性

· 键值对RDD数据分区

· SparkCore中的Key-Value 类型 RDD 的数据分区器

· Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· 字符编码：从基础到乱码解决
· SpringCloud带你走进微服务的世界

公告

昵称：学而不思则罔！
园龄： 4年10个月
粉丝： 11
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:第十章 Hive调优【合理设置Map数】
请问这是基于spark引擎还是mapreduce下的讨论呀
--好困sleepy
2. Re:第五章_Spark核心编程_Rdd_转换算子_Value型_glom算子
rdd1.aggregateByKey(0)( (x, y) => { math.max(x, y) }, (x, y) => { x + y } ).collect().foreach(printl...
--API_ZY
3. Re:第五章_Spark核心编程_Rdd_转换算子_Value型_glom算子
123
--API_ZY
4. Re:hive_面试题【打折日期交叉问题】
这题挺绕的，第二种还稍微好理解点儿，第一种完全是数学技巧
--自琢
5. Re:hive_面试题【同时在线问题】
第一种算法逻辑有问题，同时在线的条件可是有4中，但是只能保证和他当时同时在线，不能保证别的用户同时在线，所以，算法的出发点就有问题，算出的结果也没意义。
第二种算发很棒。
--自琢