Hadoop分布式部署
和伪分布式比较像,主要记录几个需要注意的问题:
1.etc/hosts的设置
需要把相关集群的机器都添加进去
for example :
192.168.01 node0 node0
2.dfs.name.dir的配置
这是最坑爹的一个,我是在创建好相应的目录以后去设置的value,结果在 hadoop namenode -format时总是失败。
网上看到一些说删除tmp目录下的文件就可以解决,可我是在第一次就格式化失败,很无语啊。
其目录应该不要手动创建,否则会在 hadoop namenode -format是失败。
网上看到解释是:Hadoop这样做的目的是防止错误地将已存在的集群格式化了
同样的道理,重新格式化时,也应该删除 $dfs.name.dir(推测)
3.从hdfs上拉数据到本地时,如果使用如下命令
hadoop fs -get output output
会在本地output文件夹下再创建一个output目录,而这往往不是我们的本意
如果不想多一个output目录,可以用如下命令
hadoop fs -get output/* output