2020年11月25日
摘要: Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。 小文件带来的问题 关于这个 阅读全文
posted @ 2020-11-25 20:23 大鹏的鸿鹄之志 阅读(1131) 评论(0) 推荐(0) 编辑
摘要: 转载:https://blog.csdn.net/young_0609/article/details/109275517 阅读全文
posted @ 2020-11-25 17:38 大鹏的鸿鹄之志 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 转载:https://blog.csdn.net/weixin_46163590/article/details/106191042?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3. 阅读全文
posted @ 2020-11-25 17:17 大鹏的鸿鹄之志 阅读(382) 评论(0) 推荐(0) 编辑