第126讲：Hadoop集群管理之Datanode目录元数据结构详解学习笔记

namenode是管理hdfs文件系统的元数据

datanode是负责当前节点上的数据的管理，具体目录内容是在初始阶段自动创建的。在用hdfs dfs namenode format时并没有对datanode进行format。

在datanode中目录是按文件信息存储的。

datanode存在于具体节点上的hadoop-2.6.0/dfs/data/current中。

datanode的VERSION内容与namenode的VERSION内容相似。

storageID：在namenode与datanode沟通时，datanode会从namenode获得storageID。对于具体datanode来说，storageID是唯一的。

从datanode访问namenode时需要这个ID。

namenode可以用这个属性区分不同的datanode。

其他内容：clusterID/cTime/storageType

从数据存储角度看datanode中有很多以block开头的文件，这些文件有两种：

1.hdfs本身的块文件，具体的原始数据。

2.块的元数据，以meta为后缀。

块文件包含所存储文件的原始文件，元数据包含头部和当前块的区段，校验等信息。

hadoop在设置datanode的目录结构时，会创建子目录来存放文件的数据块及元数据信息。如果当前目录中存放了64个数据块（可设置：dfs.datanode.number.blocks）就创建子目录。

一次进行一个树状的拓扑结构。这样就使用datanode容易管理各个目录的文件，避免了很多block管理的难题。

在具体配置时也可以配置dfs.datanode.dir指向多个不同的目录，数据块的写入是以随机容寻的方式在同一个datanode节点上的block块不会重复，与namenode不同，namenode是备份。datanode是不同机器上的同一个block备份。

以上内容是王家林老师DT大数据梦工厂《Hadoop深入浅出实战经典》第126讲的学习笔记。
王家林：Spark、Flink、Docker、Android技术中国区布道师。Spark亚太研究院院长和首席专家，DT大数据梦工厂创始人，Android软硬整合源码级专家，英语发音魔术师，健身狂热爱好者。

微信公众账号：DT_Spark

电话：18610086859

QQ:1740415547

微信号：18610086859

新浪微博：ilovepains

王家林的第一个中国梦：免费为全社会培养100万名优秀的大数据从业人员！

可以通过王家林老师的微信号18610086859发红包捐助，目前已经发布的王家林免费视频全集如下：

1，《大数据不眠夜：Spark内核天机解密（共100讲）》：http://pan.baidu.com/s/1eQsHZAq

2，《Hadoop深入浅出实战经典》 http://pan.baidu.com/s/1mgpfRPu

3，《Spark纯实战公益大讲坛》 http://pan.baidu.com/s/1jGpNGwu
4，《Scala深入浅出实战经典》 http://pan.baidu.com/s/1sjDWG25
5，《Docker公益大讲坛》 http://pan.baidu.com/s/1kTpL8UF
6，《Spark亚太研究院Spark公益大讲堂》 http://pan.baidu.com/s/1i30Ewsd

7，Spark实战高手之路全部六阶段视频：http://edu.51cto.com/pack/view/id-144.html

8，《大数据Spark企业级实战》购买http://item.jd.com/11622851.html

第126讲视频网站地址：

51CTO

http://edu.51cto.com/lesson/id-77867.html

posted @ 2015-11-14 20:40 飞天richard 阅读(1234) 评论(0) 编辑收藏举报

刷新页面返回顶部

飞天richard