Order By
- order by 会对输入做全排序, 因此只有一个Reducer(多个Reducer无法保证全局有序), 然而只有一个Reducer, 会导致当输入规模较大时, 消耗较长的计算时间。
Sort By
- sort by 不是全局排序, 其在数据进入reducer前完成排序。
- 因此, 如果用sort by进行排序, 并且设置mapred.reduce.mode属性的影响, sort by只会保证每个reducer的输出有序, 并不保证全局有序。
- sort by 不同于 order by, 它不受hive.mapred.mode属性的影响, sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。
- 使用sort by 可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定), 对输出的数据再执行归并排序, 即可得到全部结果。
Distribute By
- 是控制在map端如何拆分数据给reduce端的。
- Hive会根据distribute by后面列, 对应reduce的个数进行分发, 默认使用hash算法。
- sort by为每个reduce产生一个排序文件。
- 在某些情况下, 为了进行后续的聚合操作, 需要控制某个特定行应该到哪个reducer。
- distribute by 经常和sort by配合使用。
- distribute by 和 sort by的使用场景
- Map输出的文件大小不均
- Reduce输出文件大小不均
- 小文件过多
- 文件超大
Cluster By
- cluster by除了具有distribute by的功能外还兼具sort by的功能。
- 但是排序只能是倒叙排序, 不能指定排序规则为ASC或DESC。
posted @
2019-12-12 10:42
wellDoneGaben
阅读(
491)
评论()
编辑
收藏
举报