2020 年 11月随笔档案 - 大鹏的鸿鹄之志

随笔 - 126 文章 - 0 评论 - 5 阅读 - 94759

11 2020 档案

摘要：Hive的后端存储是HDFS，它对大文件的处理是非常高效的，如果合理配置文件系统的块大小，NameNode可以支持很大的数据量。但是在数据仓库中，越是上层的表其汇总程度就越高，数据量也就越小。而且这些表通常会按日期进行分区，随着时间的推移，HDFS的文件数目就会逐渐增加。小文件带来的问题关于这个阅读全文

posted @ 2020-11-25 20:23 大鹏的鸿鹄之志阅读(1162) 评论(0) 推荐(0) 编辑

hive计算引擎~Tez

摘要：转载：https://blog.csdn.net/young_0609/article/details/109275517 阅读全文

posted @ 2020-11-25 17:38 大鹏的鸿鹄之志阅读(275) 评论(0) 推荐(0) 编辑

Hive优化~参数优化

摘要：转载：https://blog.csdn.net/weixin_46163590/article/details/106191042?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3. 阅读全文

posted @ 2020-11-25 17:17 大鹏的鸿鹄之志阅读(391) 评论(0) 推荐(0) 编辑

Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK

摘要：转载：http://lxw1234.com/archives/2015/04/185.htm 数据准备： d1,user1,1000 d1,user2,2000 d1,user3,3000 d2,user4,4000 d2,user5,5000 CREATE EXTERNAL TABLE lxw12 阅读全文

posted @ 2020-11-15 14:50 大鹏的鸿鹄之志阅读(187) 评论(0) 推荐(0) 编辑

HIve实现数据抽样

摘要：1，https://blog.csdn.net/yangwenlei222/article/details/81112618?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~sobaiduend~default- 阅读全文

posted @ 2020-11-11 17:35 大鹏的鸿鹄之志阅读(733) 评论(0) 推荐(1) 编辑

昵称：大鹏的鸿鹄之志
园龄： 9年4个月
粉丝： 3
关注： 12

+加关注

2025年3月

日

一

二

三

四

五

六

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论