hive实现全局排序使用sort by+order by还是直接使用order by表较好
如果数据量较小的话,直接使用order by即可 。实际场景中一般先使用sort by再使用order by效率更高一些 。
sort by只能保证在reduce内有序 。
hive实现全排序:
1.要么用order by,但这样默认了reducer个数为1,效率低下。
2.要么用sort by+order by,sort by过程可以设置reducer个数(n),order by过程用n个reducer的输出文件进行一次全排序,得到最终的结果。
参考:
https://blog.csdn.net/xxzhangx/article/details/105501015
posted on 2020-11-02 15:07 RICH-ATONE 阅读(1591) 评论(0) 编辑 收藏 举报