Hive-排序方式 - 嘣嘣嚓 - 博客园

Hive-排序方式

Hive-排序方式

order by

会对查询的结果做一次全局排序

所有的数据都会发送到同一个reducer进行处理，不管有多少map，也不管文件有多少block块，只会启动一个reducer，因为多个reducer无法保证全局有序

优点

全局有序

缺点

对大量数据进行排序耗时会比较长

sort by

会根据数据量的大小启动多个reducer进行排序，会保证每个reducer内有序

优点

执行了局部排序之后可以为全局排序提高不少效率

缺点

局部有序，如果只有一个reducer，则效果和order by一样

distribute by

有些情况下，我们需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。

distribute by类似MR中partition(自定义分区)，进行分区，结合sort by使用

distribute by的分区规则是根据分区字段的hash码与reducer的个数取模，相同的分到一个区

distribute by语句要写在sort by语句之前

cluster by

cluster by是distribute by和sort by的结合

posted on 2020-12-27 20:21 嘣嘣嚓阅读(156) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识（上）
· 浏览器原生「磁吸」效果！Anchor Positioning 锚点定位神器解析
· 没有源码，如何修改代码逻辑？

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

公告

昵称：嘣嘣嚓
园龄： 8年
粉丝： 33
关注： 4

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:Hudi-Flink CDC将MySQL数据写入hudi
@magicer Thanks....
--嘣嘣嚓
2. Re:Hudi-Flink CDC将MySQL数据写入hudi
binlog_format=rot
更正：
binlog_format=row
--magicer
3. Re:Flink-Table API(概念、基础操作、流表转换)
这是我目前看最好的一篇基础讲解的文章了。真的好，比如其中的创建环境部分讲解，通过文章可以知道为什么，这是最重要的。
--Peter-zhu
4. Re:java.sql.SQLException: Incorrect string value: '\xF0\x9F\x91\x88\xE6\x88...' for column 'content' at row 1
支持！答主；如果将表的编码改了没用可以使用 show variables like '%char%' 查看MYSQL的编码。然后在MYSQL的配置文件中设置编码重启即可...
--浩浩丶
5. Re:机器学习-kmeans(实现步骤、sklearn实现、python自实现、优缺点)
@嘣嘣嚓哇！！多谢！！！1251104303@qq.com...
--马一