Fork me on GitHub

《Hive编程指南》问题

1、Hive不支持记录级别的更新、插入或删除?

 

2、sort by 和 order by 的区别?

https://blog.csdn.net/jthink_/article/details/38903775

 

3、分区和分桶的区别?

分区:是hive中对数据比较粗粒度的划分,每个分区对应一个文件目录;类似与rdbms中分区表的概念。比如大量日志存储,会根据日志产生时间分区,一般分区会造成数据倾斜。

分桶:是比较细粒度的数据划分,对应到具体文件;根据指定列进行hash之后与分桶个数取模计算,确定数据最终放到哪个文件中。数据存放相对比较均衡。

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML

 

posted @ 2018-03-21 08:59  迁梦余光  阅读(118)  评论(0编辑  收藏  举报