Hadoop HDFS详解（2）

HDFS的主要特性

　　HDFS是基于流数据模式访问和处理超大文件的需求而开发的。HDFS主要特点概括为以下几点：

1.处理超大文件。超大文件通常是指数百MB、甚至数百TB大小的文件。

2.检测和快速应对硬件故障。一般的HDFS系统是由数百台甚至上千台服务器组成，因此，故障检测和自动恢复是HDFS的一个设计目标。

3.流式数据访问。HDFS的设计建立在“一次写入，多次读取”的基础上。HDFS处理的数据规模都比较大，一般都是批处理，所以它注重的是数据的吞吐量，而不是数据的访问速度。

4.简化的一致性模型。大部分的HDFS程序操作文件时需要一次写入，多次读取。在HDFS中，一个文件一旦经过创建、写入、关闭后，一般就不需要修改了。这样简单的一致性模型，有助于提高吞吐量的数据访问模型。

而HDFS不适用于如下应用：

1.低延迟数据访问。因为HDFS关注的是数据的吞吐量，而不是数据的访问速度，所以HDFS不适用于要求低延迟的数据访问应用。

2.大量的小文件。HDFS是通过将数据分布在数据节点，并将文件的元数据保存在名字节点上来支持超大文件存储的。名字节点的内存大小决定了HDFS系统可保存的文件数量，大量的小文件会影响到名字节点的性能。

3.多用户写入修改文件。HDFS中的文件只能有一个写入者，而且写操作总是在文件末。它不支持多个写入者，也不支持在数据写入后，在文件的任意位置进行修改。

posted @ 2015-01-15 00:13 birdhack 阅读(202) 评论(0) 收藏举报

刷新页面返回顶部

代码打字员