摘要: 1.reduceByKey(func) 功能: 使用func函数合并具有相同键的值 用scala编写 def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().setAppName("Test3 阅读全文
posted @ 2022-04-25 18:32 Bonnie_ξ 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 一、先看结论 1.从Shuffle的角度 reduceByKey 和 groupByKey都存在shuffle操作,但是reduceByKey可以在shuffle之前对分区内相同key的数据集进行预聚合(combine)功能,这样会较少落盘的数据量,而groupByKey只是进行分组,不存在数据量减 阅读全文
posted @ 2022-04-25 18:02 Bonnie_ξ 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 比如我的内存中存在如下的以key-value形式的数据集(RDD): hello:1 sparkSubmit:1 red:1 sparkSubmit:1 hello:2 hello:1 hello:4 red:1 red:1 red:1 ... reduceByKey的作用对象是(key, valu 阅读全文
posted @ 2022-04-25 17:41 Bonnie_ξ 阅读(323) 评论(0) 推荐(0) 编辑