键值对RDD数据分区

1、分区介绍

Spark目前支持Hash分区和Range分区，和用户自定义分区。Hash分区为当前的默认分区。分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle后进入哪个分区和Reduce的个数。说明：只有Key-Value类型的RDD才有分区器，非Key-Value类型的RDD分区的值是None，每个RDD的分区ID范围：0~numPartitions-1，决定这个值是属于那个分区的。

def main(args: Array[String]): Unit = {
        //1.创建SparkConf并设置App名称
        val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[*]")
 
        //2.创建SparkContext，该对象是提交Spark App的入口
        val sc: SparkContext = new SparkContext(conf)
 
        //3 创建RDD
        val pairRDD: RDD[(Int, Int)] = sc.makeRDD(List((1,1),(2,2),(3,3)))
 
        //3.1 打印分区器
        println(pairRDD.partitioner)
 
        //3.2 使用HashPartitioner对RDD进行重新分区
        val partitionRDD: RDD[(Int, Int)] = pairRDD.partitionBy(new HashPartitioner(2))
 
        //3.3 打印分区器
        println(partitionRDD.partitioner)
 
        //4.关闭连接
        sc.stop()
    }

1、Hash 分区

HashPartitioner分区的原理：对于给定的key，计算其hashCode，并除以分区的个数取余，如果余数小于0，则用余数+分区的个数（否则加0），最后返回的值就是这个key所属的分区ID。

HashPartitioner分区弊端：可能导致每个分区中数据量的不均匀，极端情况下会导致某些分区拥有RDD的全部数据。

2、Ranger 分区

RangePartitioner作用：将一定范围内的数映射到某一个分区内，尽量保证每个分区中数据量均匀，而且分区与分区之间是有序的，一个分区中的元素肯定都是比另一个分区内的元素小或者大，但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。

实现过程为：

第一步：先从整个RDD中采用水塘抽样算法，抽取出样本数据，将样本数据排序，计算出每个分区的最大key值，形成一个Array[KEY]类型的数组变量rangeBounds；

第二步：判断key在rangeBounds中所处的范围，给出该key值在下一个RDD中的分区id下标；该分区器要求RDD中的KEY类型必须是可以排序的

3、自定义分区

自定义分区需要混入Partitioner ，并重写其方法实现分区逻辑

object Spark11_Transformation_partitionBy {
  def main(args: Array[String]): Unit = {
    //获取 SparkConf 并设置应用名称*本地模式
    val conf: SparkConf = new SparkConf().setAppName("Spark").setMaster("local[*]")
    //获取 Spark 上下文对象
    val sc: SparkContext = new SparkContext(conf)
    //键值对RDD
    val rdd: RDD[(Int, String)] = sc.makeRDD(List((1, "scala"), (2, "spark"), (3, "flink"), (4, "java")))
    rdd.mapPartitionsWithIndex {
      (index, data) => {
        println(index + " " + data.mkString(","))
        data
      }
    }.collect().foreach(println)
    /*    2 (3,flink)
        3 (4,java)
        1 (2,spark)
        0 (1,scala)*/
    /**
     * def partitionBy(partitioner: Partitioner): RDD[(K, V)] = self.withScope {
     * if (keyClass.isArray && partitioner.isInstanceOf[HashPartitioner]) {
     * throw new SparkException("HashPartitioner cannot partition array keys.")
     * }
     * if (self.partitioner == Some(partitioner)) {
     * self
     * } else {
     * new ShuffledRDD[K, V, V](self, partitioner)
     * }
     * }
     */

    /**
     * 使用 HashPartitioner 进行重分区
     */
    rdd.partitionBy(new HashPartitioner(2))
      .mapPartitionsWithIndex {
        (index, data) => {
          println(index + " " + data.mkString(","))
          data
        }
      }.collect().foreach(println)
    /*    0 (2,spark),(4,java)
        1 (1,scala),(3,flink)*/

    rdd.partitionBy(new MyPartitioner(2))
      .mapPartitionsWithIndex {
        (index, data) => {
          println(index + " " + data.mkString(","))
          data
        }
      }.collect().foreach(println)


    //释放 Spark 上下文对象
    sc.stop
  }

}

/**
 * 自定义分区器
 *
 * @param partitions
 */
class MyPartitioner(partitions: Int) extends Partitioner {
  //分区数
  override def numPartitions: Int = partitions

  /**
   * 分区逻辑
   *
   * @param key
   * @return
   */
  override def getPartition(key: Any): Int = {
    1
  }
}

posted @ 2022-06-10 09:36 晓枫的春天阅读(75) 评论(0) 编辑收藏举报

刷新页面返回顶部

滴水穿石不是靠力，而是因为不舍昼夜。

键值对RDD数据分区

1、分区介绍

1、Hash 分区

2、Ranger 分区

3、自定义分区

公告