2019 年 4月 21 日随笔档案 - 兴风作浪

2019年4月21日

摘要：往hive分区表中插入数据时，如果需要创建的分区很多，比如以表中某个字段进行分区存储，则需要复制粘贴修改很多sql去执行，效率低。因为hive是批处理系统，所以hive提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。 1.创建一个单一字段分区表 hive> creat 阅读全文

posted @ 2019-04-21 22:05 兴风作浪阅读(1688) 评论(0) 推荐(0) 编辑

hive小文件合并设置参数

摘要： Hive的后端存储是HDFS，它对大文件的处理是非常高效的，如果合理配置文件系统的块大小，NameNode可以支持很大的数据量。但是在数据仓库中，越是上层的表其汇总程度就越高，数据量也就越小。而且这些表通常会按日期进行分区，随着时间的推移，HDFS的文件数目就会逐渐增加。小文件带来的问题关于这个阅读全文

posted @ 2019-04-21 19:16 兴风作浪阅读(5595) 评论(0) 推荐(0) 编辑

兴风作浪

公告