RICH-ATONE

hive实现全局排序使用sort by+order by还是直接使用order by表较好

如果数据量较小的话,直接使用order by即可 。实际场景中一般先使用sort by再使用order by效率更高一些 。

sort by只能保证在reduce内有序 。

hive实现全排序:

1.要么用order by,但这样默认了reducer个数为1,效率低下。

2.要么用sort by+order by,sort by过程可以设置reducer个数(n),order by过程用n个reducer的输出文件进行一次全排序,得到最终的结果。

参考:

https://blog.csdn.net/xxzhangx/article/details/105501015

posted on 2020-11-02 15:07  RICH-ATONE  阅读(1538)  评论(0编辑  收藏  举报

导航