Hadoop中NameNode存储的元数据记录和NameNode的启动过程

NameNode（NN代指）中存储的HDFS中文件的元信息，从大的方面可以分为3个部分整个文件系统的目录树、文件名与blockid的映射关系、blockid所在的DN信息。其中前两项是永久存在NN中的（image文件），第三项是DN启动时向NN汇报生成的，这样能够简化NN的存储逻辑，并且大大减小image文件的大小。

单纯看NN的存储逻辑会比较无序，不容易理解，借助NN的启动过程来进行分析。

NN的启动过程：

首先执行NN中的main函数

main函数的主要工作是创建一个NN对象，并通过join方法等待其他线程运行结束。

createNameNode函数

首先获取startOpt，就是启动dfs时指定的参数（如-format），启动时会对format（hadoop一开始部署完成要进行一次格式化操作，类似磁盘的格式化）和finalize（升级稳定后正式提交）。

之后创建NN的对象。具体的初始化工作是在initialize方法中，进行一堆安全检查，然后创建FSNamesystem对象

this.namesystem = new FSNamesystem(this, conf);

之后创建RPCSever和HttpServer，具体实现可以查看Hadoop RPC部分的源代码。

开始最重要的FSNamesystem的初始化，同样初始化工作是在initialize方法中完成。完成的最重要的几件事情，创建FSDirectory对象，加载image和edits文件，设置安全状态，之后启动几个monitor线程。分别监控DN的心跳、租约、block的冗余备份数目。

可以看出FSNamesystem对于目录结构的操作都是通过FSDirectory对象进行的。在FSDirectory中有一个表示系统目录根的rootDir，rootDir是INodeDirectoryWithQuota类型，这就表明FSDirectory是作为Inode（类似Linux中的inode）与FSNamesystem之间的桥梁，FSDirectory封装了Inode提供了对外查询的接口。

Inode是一个抽象类，他有两个子类INodeDirectory和INodeFile。顾名思义，INodeFile代表的是一个具体的文件，而INodeDirectory代表的是一个文件目录。

接着看一下INodeDirectory与INodeFile之间的区别。在INodeFile中最重要的一个域是

protected BlockInfo blocks[] = null;

这就是代表每个文件所对应的blockid。而在INodeDirectory中最重要的部分是

  private List<INode> children;

这就是一个文件目录中的目录项的集合，也就是目录树。

上面我们知道了目录树和blockid的存储结构，接着来看在image文件和edits文件时候是否按照这样的结构进行组织。

posted @ 2012-11-24 23:57 皮皮家的程序猿阅读(4023) 评论(0) 编辑收藏举报

刷新页面返回顶部

皮皮家的程序猿

保持乐观与自信，虽然我真的很菜

Hadoop中NameNode存储的元数据记录和NameNode的启动过程

公告