摘要:
【Schema设计】首先碰到的问题就是如何设计表结构。关键字:partition,cluster,row format建表需要对如下几个feature弄情况,合理使用partition 就是按某个字段分文件夹index 据说索引并不成熟,至少有一点,每次导数据后倒要重建索引,感觉挺傻的store as rcfile 这个结构结合了行表和列表的优势,对比Text和Sequence 俩种存储external table 如果数据不止在hive处理需要其他的工具,使用外部表bucket 为了并行处理,文件夹下的文件会散列到bucket个文件中实验表OKCREAT... 阅读全文