第五章_Spark核心编程_Rdd_转换算子_Value型_glom算子

 


1. 说明

    /*
    * 1. 定义
    *       def glom(): RDD[Array[T]]
    *
    * 2. 功能
    *     返回一个RDD,将每个分区内的所有元素合并成一个数组
    * */
复制代码
object RddTransitionOperator_glom extends App {
  private val sc: SparkContext = CommonUtils.getSparkContext("mapPartitionsWithIndex operator")

  private val rdd: RDD[Long] = sc.range(1, 10, 1, 2)

  private val rdd1: RDD[Array[Long]] = rdd.glom()

  rdd1.collect().foreach(e => println(e.mkString(",")))

  //  1,2,3,4
  //  5,6,7,8,9

  sc.stop()
}
复制代码

2. 需求: 计算所有分区最大值求和(分区内取最大值,分区间最大值求和)

复制代码
  object glomTestByMax extends App {
    val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("mapPartitionsWithIndexTest")

    val sc: SparkContext = new SparkContext(sparkconf)

    val rdd = sc.makeRDD(Array(1, 2, 3, 4, -1, -2, -3, -4), 2)

    // 获取每个分区内的最大值
    private val Rdd1: RDD[Int] = rdd.glom().map(_.max)

    // 获取每个分区内的最大值
    private val Rdd2: RDD[Int] = rdd.mapPartitions(
      iter => List(iter.max).iterator
    )


    // 拉取所有分区,并求和
    private val sum: Int = Rdd1.collect().sum
    private val sum1: Int = Rdd2.collect().sum
    println(sum)
    println(sum1)

    sc.stop()
  }
复制代码

 

posted @   学而不思则罔!  阅读(145)  评论(2编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
点击右上角即可分享
微信分享提示