摘要:
1.小文件优化方法 (1)小文件弊端 HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。 小文件过多,在进行 阅读全文
摘要:
1.MapReduce跑得慢的原因 MapReduce程序效率的瓶颈在于两点: (1)计算机性能 CPU、内存、磁盘、网络 (2)I/O操作优化 1)数据倾斜 2)Map运行时间太长,导致Reduce等待过久 3)小文件过多 2.MapReduce常用调优参数 3.MapReduce数据倾斜问题 ( 阅读全文
摘要:
1.HDFS存储小文件弊端 每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1M 阅读全文