为什么hdfs不适合存储小文件

这是和HDFS系统底层设计实现有关系的，HDFS本身的设计就是用来解决海量大文件数据的存储.，他天生喜欢大数据的处理，大文件存储在HDFS中，会被切分成很多的小数据块，任何一个文件不管有多小，都是一个独立的数据块，而这些数据块的信息则是保存在元数据中的，在之前的博客HDFS基础里面介绍过在HDFS集群的namenode中会存储元数据的信息，这里再说一下，元数据的信息主要包括以下3部分：

　　1）抽象目录树

　　2）文件和数据块的映射关系，一个数据块的元数据大小大约是150byte

　　3）数据块的多个副本存储地

而元数据的存储在磁盘（1和2）和内存中（1、2和3），而服务器中的内存是有上限的，举个例子：

有100个1M的文件存储进入HDFS系统，那么数据块的个数就是100个，元数据的大小就是100*150byte，消耗了15000byte的内存，但是只存储了100M的数据。

有1个100M的文件存储进入HDFS系统，那么数据块的个数就是1个，元数据的大小就是150byte，消耗量150byte的内存，存储量100M的数据。

所以说HDFS文件系统不适用于存储小文件。

posted on 2020-07-13 19:16 zourui4271 阅读(1026) 评论(0) 编辑收藏举报

刷新页面返回顶部

zourui4271

公告