HDFS
HDFS,Hadoop Distributed File System,即Hadoop分布式文件系统。
当数据集(data set)超过一台独立的物理计算机的储存能力时,就有必要对它进行分区partition,而管理网络中多态计算机储存的系统就是分布式文件系统。
先介绍几个概念:
节点(Node):这里简单认为拥有一个ip,可以进行存储和计算的一台计算机或者虚拟计算机。
NameNode:主节点,也叫管理节点。
DataNode:从节点,也叫工作节点。
block:块。
-----------------------------------------------------------------------------------------------------------------------------------------
HADOOP的设计特点:
超大数据,
商用硬件(说白了就是普通能买到的硬件,便宜,和ORACLE的那种一体机比,相当便宜),
大量的小文件(存储在内存中,每个存储信息只占150字节),
流式数据访问(这个怎么理解好呢?我们把把数据当作水库的话,一次放进来5吨水,而放出去的水就跟水流一样,可以停止,可以调大小。也就是说一次性把数据写入到HDFS中,接着长时间下,接下来长时间都在此数据集上进行分析。)
----------------------------------------------------------------------------------------------------------------------------------------
HADOOP的几个概念
3.1块-block
默认128M,独立的存储单元,与单一的磁盘文件系统相比,如果文件大小小于128M时,只占用该文件大小的磁盘空间。
3.2namenode和datanode
HDFS集群以管理节点和工作节点模式运行。
namenode(管理节点)管理文件系统的命名空间。他维护整个文件系统书及整棵树内的所有文件和目录。
namenode以两个文件形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件。
namenode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存,因为这些信息会在系统启动时根据数据节点信息重新建立。
namenode作为大脑,损坏了就无法管理datanode工作了,所以对于namenode实现较高的容错是十分必要的。
namenode为此提供了两种机制: