摘要: 1、分桶的概述 分区提供了一个隔离数据和优化查询的遍历方式。不是所有的数据集都可形成合力的分区 对于一张表或者分区,hive可以进一步组织成桶,也就是更为 细粒度 的数据范围 2、创建分桶表,数据通过子查询的方式导入 (1)创建一个普通表 (2)向普通表中导入数据 (3)创建分桶表 (3)通过 子查 阅读全文
posted @ 2019-10-23 20:26 hyunbar 阅读(822) 评论(0) 推荐(0) 编辑
摘要: 1、全局排序(order by) ASC(ascend ):升序(默认) DESC(descend) :降序 2、每个MR内部排序(sort by) sort By:对于大规模的数据集order by的效率非常低。在很多情况下,并不需要全局排序,此时可以使用sort by Sort By为每个Red 阅读全文
posted @ 2019-10-23 20:14 hyunbar 阅读(2365) 评论(0) 推荐(0) 编辑