spark分组统计及二次排序案例一枚

组织数据形式：
aa 11
bb 11
cc 34
aa 22
bb 67
cc 29
aa 36
bb 33
cc 30
aa 42
bb 44
cc 49

需求：
1、对上述数据按key值进行分组
2、对分组后的值进行排序
3、截取分组后值得top 3位以key-value形式返回结果

答案如下：
val groupTopNRdd = sc.textFile("hdfs://db02:8020/user/hadoop/groupsorttop/groupsorttop.data")

groupTopNRdd.map(_.split(" ")).map(x => (x(0),x(1))).groupByKey().map(
x => {
val xx = x._1
val yy = x._2
(xx,yy.toList.sorted.reverse.take(3))
}
).collect

整合一条语句后结果如下：

sc.textFile("hdfs://db02:8020/user/hadoop/groupsorttop/groupsorttop.data").map(_.split(" ")).map(x => (x(0),x(1))).groupByKey().map(
x => {
val xx = x._1
val yy = x._2
(xx,yy.toList.sorted.reverse.take(3))
}
).collect

可以将结果直接保存在hdfs文件系统上。

posted @ 2017-05-24 13:12 ChavinKing 阅读(1391) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列：如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列（二）：开始使用ML.NET

阅读排行：
· 无需6万激活码！GitHub神秘组织3小时极速复刻Manus，手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火，是硬核还是营销？
· 终于写完轮子一部分：tcp代理了，记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛（1）

公告

欢迎订阅笔者技术公众号：ByteLabs，更多干货等待你的探索！

扫码关注微信公众号，更多干货等你探索

博客园相册图片

昵称： ChavinKing
园龄： 10年6个月
粉丝： 95
关注： 1

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

最新随笔

随笔分类 (481)

相册 (1)

icon(1)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:MySQL字符集详解
牛讲的很详细
--shashale
2. Re:MySQL ·InnoDB 文件系统之文件物理结构
大佬，每个Inode Entry的结构如下表所示：图中的FSEG_NOT_FULL_N_USED的大小应该是4，我看代码中偏移量是8，下一个FSEG_FREE偏移量为12 #define FSEG_...
--飞翔的小鸟1996
3. Re:hadoop（角色）各个组件配置信息
谢谢,很全面
--mmseh
4. Re:数据仓库保存历史数据方法之拉链表
您好，文章写得太好了，请问可以转载吗，一方面方便放出来看，另一方面想分享给更多的人看到。我会注明原文地址。🙏
--逆水行舟DOIT
5. Re:CentOS7安装详解
您好，我也是按步骤来的，不过我不知道这个问题出在哪里，能麻烦您指点一下吗？
--你是在挑衅我的猫嘛