HDFS

HDFS，Hadoop Distributed File System，即Hadoop分布式文件系统。

当数据集（data set）超过一台独立的物理计算机的储存能力时，就有必要对它进行分区partition，而管理网络中多态计算机储存的系统就是分布式文件系统。

先介绍几个概念：

　　节点（Node）：这里简单认为拥有一个ip，可以进行存储和计算的一台计算机或者虚拟计算机。

　　NameNode：主节点，也叫管理节点。

　　DataNode：从节点，也叫工作节点。

　　block：块。

-----------------------------------------------------------------------------------------------------------------------------------------

HADOOP的设计特点：

　　超大数据，

　　商用硬件（说白了就是普通能买到的硬件，便宜，和ORACLE的那种一体机比，相当便宜），

　　大量的小文件（存储在内存中，每个存储信息只占150字节），

　　流式数据访问（这个怎么理解好呢？我们把把数据当作水库的话，一次放进来5吨水，而放出去的水就跟水流一样，可以停止，可以调大小。也就是说一次性把数据写入到HDFS中，接着长时间下，接下来长时间都在此数据集上进行分析。）

----------------------------------------------------------------------------------------------------------------------------------------

HADOOP的几个概念

　　3.1块-block

　　　　默认128M，独立的存储单元，与单一的磁盘文件系统相比，如果文件大小小于128M时，只占用该文件大小的磁盘空间。

　　3.2namenode和datanode

　　　　HDFS集群以管理节点和工作节点模式运行。

　　　　namenode（管理节点）管理文件系统的命名空间。他维护整个文件系统书及整棵树内的所有文件和目录。

　　　　namenode以两个文件形式永久保存在本地磁盘上：命名空间镜像文件和编辑日志文件。

　　　　namenode也记录着每个文件中各个块所在的数据节点信息，但它并不永久保存，因为这些信息会在系统启动时根据数据节点信息重新建立。

　　　　namenode作为大脑，损坏了就无法管理datanode工作了，所以对于namenode实现较高的容错是十分必要的。

　　　　namenode为此提供了两种机制：

posted on 2017-10-23 20:01 剑姬阅读(116) 评论(0) 编辑收藏举报

刷新页面返回顶部