摘要:
> 选择适合的底层数据存储格式,可以极大得提升性能。 ## MR中常见的数据压缩格式 ![](https://img2023.cnblogs.com/blog/3161112/202308/3161112-20230821152401449-767478502.png) ## Hive数据存储格式 阅读全文
摘要:
## Hadoop小文件问题 **小文件是指比HDFS默认块大小明显小得多的文件。** ### 小文件导致了什么问题 对于存储层来说,大量小文件会产生大量的元数据信息;当NN重启时,必须将元数据信息加载到内存中,大量元数据信息会导致NN重启速度非常慢;并且,太多小文件也会导致NN在DN耗尽磁盘空间之 阅读全文