HDFS

HDFS,Hadoop Distributed File System,即Hadoop分布式文件系统。

当数据集(data set)超过一台独立的物理计算机的储存能力时,就有必要对它进行分区partition,而管理网络中多态计算机储存的系统就是分布式文件系统。

先介绍几个概念:

  节点(Node):这里简单认为拥有一个ip,可以进行存储和计算的一台计算机或者虚拟计算机。

  NameNode:主节点,也叫管理节点。

  DataNode:从节点,也叫工作节点。

  block:块。

-----------------------------------------------------------------------------------------------------------------------------------------

HADOOP的设计特点:

  超大数据,

  商用硬件(说白了就是普通能买到的硬件,便宜,和ORACLE的那种一体机比,相当便宜),

  大量的小文件(存储在内存中,每个存储信息只占150字节),

  流式数据访问(这个怎么理解好呢?我们把把数据当作水库的话,一次放进来5吨水,而放出去的水就跟水流一样,可以停止,可以调大小。也就是说一次性把数据写入到HDFS中,接着长时间下,接下来长时间都在此数据集上进行分析。)

----------------------------------------------------------------------------------------------------------------------------------------

HADOOP的几个概念

  3.1块-block

    默认128M,独立的存储单元,与单一的磁盘文件系统相比,如果文件大小小于128M时,只占用该文件大小的磁盘空间。

  3.2namenode和datanode

    HDFS集群以管理节点和工作节点模式运行。

    namenode(管理节点)管理文件系统的命名空间。他维护整个文件系统书及整棵树内的所有文件和目录。

    namenode以两个文件形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件。

    namenode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存,因为这些信息会在系统启动时根据数据节点信息重新建立。

    namenode作为大脑,损坏了就无法管理datanode工作了,所以对于namenode实现较高的容错是十分必要的。

    namenode为此提供了两种机制:

      

 

posted on 2017-10-23 20:01  剑姬  阅读(114)  评论(0编辑  收藏  举报

导航