Hive小文件合并
摘要:Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。 小文件带来的问题 关于这个
阅读全文
posted @
2020-11-25 20:23
大鹏的鸿鹄之志
阅读(1162)
推荐(0) 编辑
hive计算引擎~Tez
摘要:转载:https://blog.csdn.net/young_0609/article/details/109275517
阅读全文
posted @
2020-11-25 17:38
大鹏的鸿鹄之志
阅读(275)
推荐(0) 编辑
Hive优化~参数优化
摘要:转载:https://blog.csdn.net/weixin_46163590/article/details/106191042?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.
阅读全文
posted @
2020-11-25 17:17
大鹏的鸿鹄之志
阅读(391)
推荐(0) 编辑
Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK
摘要:转载:http://lxw1234.com/archives/2015/04/185.htm 数据准备: d1,user1,1000 d1,user2,2000 d1,user3,3000 d2,user4,4000 d2,user5,5000 CREATE EXTERNAL TABLE lxw12
阅读全文
posted @
2020-11-15 14:50
大鹏的鸿鹄之志
阅读(187)
推荐(0) 编辑
HIve实现数据抽样
摘要:1,https://blog.csdn.net/yangwenlei222/article/details/81112618?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~sobaiduend~default-
阅读全文
posted @
2020-11-11 17:35
大鹏的鸿鹄之志
阅读(733)
推荐(1) 编辑