摘要: 往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 1.创建一个单一字段分区表 hive> creat 阅读全文
posted @ 2019-04-21 22:05 兴风作浪 阅读(1674) 评论(0) 推荐(0) 编辑
摘要: Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。 小文件带来的问题 关于这个 阅读全文
posted @ 2019-04-21 19:16 兴风作浪 阅读(5587) 评论(0) 推荐(0) 编辑