《Hive编程指南》问题
1、Hive不支持记录级别的更新、插入或删除?
2、sort by 和 order by 的区别?
https://blog.csdn.net/jthink_/article/details/38903775
3、分区和分桶的区别?
分区:是hive中对数据比较粗粒度的划分,每个分区对应一个文件目录;类似与rdbms中分区表的概念。比如大量日志存储,会根据日志产生时间分区,一般分区会造成数据倾斜。
分桶:是比较细粒度的数据划分,对应到具体文件;根据指定列进行hash之后与分桶个数取模计算,确定数据最终放到哪个文件中。数据存放相对比较均衡。
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML