HDFS基础概念

HDFS文件系统

HDFS全拼Hadoop Distributed File System 即Hadoop的分布式文件系统，它其实就是以文件块（block）的形式来存储文件。

在HDFS中，文件被切分为固定大小的数据块，数据块大小默认为64M（也可以设置成其它大小），如果文件大小未超过64M，也会单独存在一个block中。因此当一个文件进入到HDFS中，它会被按大小切分为若干个block，存储在不同的节点上。默认情况下每个block有三个副本。这些副本会存储在哪呢，假如有若干个机架，机架A和机架B，那么机架A上会存储一个节点数据，同时还会有一个副本1存储在A架上，副本2存储在B架上。这样做得好处就是假如第一个原数据丢失，HDFS会优先从A架上找它的备份，假如整个A架都崩了，再去较远的B架上寻找，保证可以全面、逐层、逐步地去进行数据的备份和恢复。

HDFS的物理架构

这张图算是是众多描绘HDFS架构中最清晰直观的图了，悄咪咪哪来用一下吧。显而易见，HDFS中的“master”是NameNode，它保存了元数据信息，元数据信息并非数据本身，而是一个“数据管理员”的身份，比如它记录了有哪些数据块，这些数据块都分别存在了哪些节点上等。而HDFS的“slave”则是DataNode，它保存真正的数据块。从图中的“Heartbeat”可以看出，DataNode会定时向NameNode汇报自己的运行状况，即“心跳机制”。

除NameNode之外，还有一个SecondaryNameNode，图中描述为“backup”，即备份节点，一旦NameNode凉凉，就会自动切换到SecondaryNameNode。

Client自然就是管理和访问HDFS了。它和NameNode交互，获取数据位置信息；与DataNode交互，读取或者写入数据。

posted @ 2021-09-27 16:21 JunanP 阅读(19) 评论(0) 收藏举报来源

刷新页面返回顶部

junanpan

HDFS基础概念

HDFS文件系统

HDFS的物理架构

公告