摘要:
前言: 每一个表或者分区,hive都可以进一步组织成桶,桶是更细粒度的数据划分,他本质不会改变表或分区的目录组织方式,他会改变数据在文件中的分布方式。 分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 桶为表加上额外结构,链接相同列划 阅读全文
摘要:
规范: 1.开发规范 SQL子查询嵌套不宜超过3层。 少用或者不用Hint,hive2.0以后增强HiveSQL对于成本调优(CBO)的支持 避免SQL 代码的复制、粘贴。如果有多处逻辑一致的代码,可以将执行结果存储到临时表中。 尽可能使用SQL 自带的高级命令做操作。在多维统计分析中使用cube、 阅读全文