| | | | |

|

hive...

ORDER BY和SORT BY

ORDER BY用于全局排序，就是对指定的所有排序键进行全局排序，使用ORDER BY的查询语句，最后会用一个Reduce Task来完成全局排序。
SORT BY用于分区内排序，即每个Reduce任务内排序。

DISTRIBUTE BY和CLUSTER BY

distribute by：按照指定的字段或表达式对数据进行划分，输出到对应的Reduce或者文件中。
cluster by：除了兼具distribute by的功能，还兼具sort by的排序功能。

Hive查询中有两个虚拟列：
INPUT__FILE__NAME：数据对应的HDFS文件名；
BLOCK__OFFSET__INSIDE__FILE：该行记录在文件中的偏移量；

发表于 2018-08-20 11:20 waker_wang 阅读(93) 评论(0) 收藏举报

刷新页面返回顶部