Hadoop分布式部署

和伪分布式比较像,主要记录几个需要注意的问题:

 

1.etc/hosts的设置

需要把相关集群的机器都添加进去

for example :

192.168.01 node0 node0 

  

2.dfs.name.dir的配置

 这是最坑爹的一个,我是在创建好相应的目录以后去设置的value,结果在 hadoop namenode -format时总是失败。

 网上看到一些说删除tmp目录下的文件就可以解决,可我是在第一次就格式化失败,很无语啊。


其目录应该不要手动创建,否则会在 hadoop namenode -format是失败。

网上看到解释是:Hadoop这样做的目的是防止错误地将已存在的集群格式化 

同样的道理,重新格式化时,也应该删除 $dfs.name.dir(推测)

 

 3.从hdfs上拉数据到本地时,如果使用如下命令

hadoop fs -get output output

会在本地output文件夹下再创建一个output目录,而这往往不是我们的本意

如果不想多一个output目录,可以用如下命令

hadoop fs -get output/* output 

 

 

posted on 2012-04-25 09:37  缠中说禅  阅读(248)  评论(0编辑  收藏  举报