第五章_Spark核心编程_Rdd_转换算子_Value型_glom算子
1. 说明
/* * 1. 定义 * def glom(): RDD[Array[T]] * * 2. 功能 * 返回一个RDD,将每个分区内的所有元素合并成一个数组 * */
object RddTransitionOperator_glom extends App { private val sc: SparkContext = CommonUtils.getSparkContext("mapPartitionsWithIndex operator") private val rdd: RDD[Long] = sc.range(1, 10, 1, 2) private val rdd1: RDD[Array[Long]] = rdd.glom() rdd1.collect().foreach(e => println(e.mkString(","))) // 1,2,3,4 // 5,6,7,8,9 sc.stop() }
2. 需求: 计算所有分区最大值求和(分区内取最大值,分区间最大值求和)
object glomTestByMax extends App { val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("mapPartitionsWithIndexTest") val sc: SparkContext = new SparkContext(sparkconf) val rdd = sc.makeRDD(Array(1, 2, 3, 4, -1, -2, -3, -4), 2) // 获取每个分区内的最大值 private val Rdd1: RDD[Int] = rdd.glom().map(_.max) // 获取每个分区内的最大值 private val Rdd2: RDD[Int] = rdd.mapPartitions( iter => List(iter.max).iterator ) // 拉取所有分区,并求和 private val sum: Int = Rdd1.collect().sum private val sum1: Int = Rdd2.collect().sum println(sum) println(sum1) sc.stop() }
分类:
SparkCore
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?