利用SecondaryNameNode文件恢复Namenode-实践可行 - zlingh

二、 namenode故障恢复(importCheckpoint)

*注意事项：

(1) 为了便于将随便一台datanode临时用作namenode，datanode和namenode配置需要一模一样包括conf目录下的所有文件、目录结构、环境变量

(2) 新namenode的主机名要与原namenode保持一致，主机名若是在hosts写死，需要批量替换datanode hosts文件 (用内部域名服务最好，改下域名指向即可)

(3) fs.checkpoint.dir的内容非常重要，无法保证secondnamenode不出故障，所以需要定期对secondnamenode fs.checkpoint.dir的内容做备份

(4) 最近一次check至故障发生这段时间的内容将丢失，fs.checkpoint.period参数值需要权衡，既不太频繁又尽可能保证数据完整，默认1小时

恢复步骤：

(0) 可选，当namenode主机名发生变化时(为了不影响应用，最好不好发生变化)，需修改：

[core-site.xml] fs.default.name = 新namenode

[hdfs-site.xml] dfs.http.address = 新namenode

[mapred-site.xml]mapred.job.tracker = 新jobtracker, 如果jobtracker与namenode在同一台机器上

(1) 确保新namenode ${dfs.name.dir}目录存在，且清空其内容

(2) 把SecondaryNameNode节点中 ${fs.checkpoint.dir} 的所有内容拷贝到新的NameNode节点的 ${fs.checkpoint.dir} 目录中

(3) 在新机器上执行

hadoop namenode -importCheckpoint

该步会从${fs.checkpoint.dir}中恢复${dfs.name.dir}，并请动namenode

(4) 检查文件block完整性

hadoop fsck /

(5) 停止namenode，使用crrl+C或者会话结束

(6) 删除新namenode ${fs.checkpoint.dir}目录下的文件（保持干净）

(7) 正式启动namenode，恢复工作完成

sh $HADOOP_HOME/bin/hadoop_daemon.sh start namenode

posted on 2015-03-01 22:12 zlingh 阅读(1080) 评论(0) 编辑收藏举报

刷新页面返回顶部