HIVE之排序

  • ORDER BY是全局排序,但在数据量大的情况下,花费时间会很长
  • SORT BY是将reduce的单个输出进行排序,不能保证全局有序
  • DISTRIBUTE BY可以按指定字段将数据划分到不同的reduce中
  • 当DISTRIBUTE BY的字段和SORT BY的字段相同时,可以用CLUSTER BY来代替 DISTRIBUTE BY with SORT BY
posted @ 2019-08-25 21:33  北漂屌丝  阅读(147)  评论(0编辑  收藏  举报