第五章_Spark核心编程_Rdd_转换算子_Value型_sortBy

目录

1. 定义

1. 定义

复制代码

    /*
    * 1. 定义
    * def sortBy[K](
    *          f: (T) => K,
    *          ascending: Boolean = true,
    *          numPartitions: Int = this.partitions.length)
    *          (implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]
    *    f: (T) => K : 指定要排序的key(按函数结果排序)
    *    ascending : true-升序 false-降序
    *    numPartitions : 指定排序后的分区数量
    *
    * 2. 功能
    *    对 Rdd元素按照指定规则 全局排序
    *
    * 3. note
    *    先全局排序,再对结果分区(中间存在Shuffle过程)
    * */

复制代码

复制代码

  object sortByTest extends App {

    val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")

    val sc: SparkContext = new SparkContext(sparkconf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7, 8, 8, 2), 2)

    private val rdd1: RDD[Int] = rdd.sortBy(e => e,false,1)

    rdd1.saveAsTextFile("Spark_319/src/output/01")

    println(s"当前分区数 : ${rdd1.getNumPartitions}")

    println(rdd1.collect().mkString(","))

    sc.stop()
  }

复制代码

posted @ 2022-03-23 16:11 学而不思则罔！阅读(49) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 第五章_Spark核心编程_Rdd_转换算子_keyValue型_sortByKey

· 第五章_Spark核心编程_Rdd_转换算子_keyValue型_partitionBy

· Spark_常用算子

· 图解Spark排序算子sortBy的核心源码

· Spark排序之SortBy

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· 字符编码：从基础到乱码解决
· SpringCloud带你走进微服务的世界

公告

昵称：学而不思则罔！
园龄： 4年10个月
粉丝： 11
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:第十章 Hive调优【合理设置Map数】
请问这是基于spark引擎还是mapreduce下的讨论呀
--好困sleepy
2. Re:第五章_Spark核心编程_Rdd_转换算子_Value型_glom算子
rdd1.aggregateByKey(0)( (x, y) => { math.max(x, y) }, (x, y) => { x + y } ).collect().foreach(printl...
--API_ZY
3. Re:第五章_Spark核心编程_Rdd_转换算子_Value型_glom算子
123
--API_ZY
4. Re:hive_面试题【打折日期交叉问题】
这题挺绕的，第二种还稍微好理解点儿，第一种完全是数学技巧
--自琢
5. Re:hive_面试题【同时在线问题】
第一种算法逻辑有问题，同时在线的条件可是有4中，但是只能保证和他当时同时在线，不能保证别的用户同时在线，所以，算法的出发点就有问题，算出的结果也没意义。
第二种算发很棒。
--自琢