HDFS基础概念

HDFS文件系统

 

        HDFS全拼Hadoop Distributed File System 即Hadoop的分布式文件系统,它其实就是以文件块(block)的形式来存储文件。

        在HDFS中,文件被切分为固定大小的数据块,数据块大小默认为64M(也可以设置成其它大小),如果文件大小未超过64M,也会单独存在一个block中。因此当一个文件进入到HDFS中,它会被按大小切分为若干个block,存储在不同的节点上。默认情况下每个block有三个副本。这些副本会存储在哪呢,假如有若干个机架,机架A和机架B,那么机架A上会存储一个节点数据,同时还会有一个副本1存储在A架上,副本2存储在B架上。这样做得好处就是假如第一个原数据丢失,HDFS会优先从A架上找它的备份,假如整个A架都崩了,再去较远的B架上寻找,保证可以全面、逐层、逐步地去进行数据的备份和恢复。

HDFS的物理架构

        这张图算是是众多描绘HDFS架构中最清晰直观的图了,悄咪咪哪来用一下吧。显而易见,HDFS中的“master”是NameNode,它保存了元数据信息,元数据信息并非数据本身,而是一个“数据管理员”的身份,比如它记录了有哪些数据块,这些数据块都分别存在了哪些节点上等。而HDFS的“slave”则是DataNode,它保存真正的数据块。从图中的“Heartbeat”可以看出,DataNode会定时向NameNode汇报自己的运行状况,即“心跳机制”。

        除NameNode之外,还有一个SecondaryNameNode,图中描述为“backup”,即备份节点,一旦NameNode凉凉,就会自动切换到SecondaryNameNode。

        Client自然就是管理和访问HDFS了。它和NameNode交互,获取数据位置信息;与DataNode交互,读取或者写入数据。

posted @   JunanP  阅读(5)  评论(0编辑  收藏  举报  
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
点击右上角即可分享
微信分享提示