摘要: > 选择适合的底层数据存储格式,可以极大得提升性能。 ## MR中常见的数据压缩格式 ![](https://img2023.cnblogs.com/blog/3161112/202308/3161112-20230821152401449-767478502.png) ## Hive数据存储格式 阅读全文
posted @ 2023-08-21 15:24 nangk 阅读(88) 评论(0) 推荐(0) 编辑
摘要: ## Hadoop小文件问题 **小文件是指比HDFS默认块大小明显小得多的文件。** ### 小文件导致了什么问题 对于存储层来说,大量小文件会产生大量的元数据信息;当NN重启时,必须将元数据信息加载到内存中,大量元数据信息会导致NN重启速度非常慢;并且,太多小文件也会导致NN在DN耗尽磁盘空间之 阅读全文
posted @ 2023-08-21 10:13 nangk 阅读(40) 评论(0) 推荐(0) 编辑