hadoop研究:单机部署hadoop平台以及遇到的若干问题
Hadoop是使用JAVA写的,所以需要先安装JAVA环境。
本次安装的是hadoop-2.7.4,需要JDK 7以上版本。确认java环境 并下载hadoop
在linux下tar解压hadoop-2.7.4.tar.gz
在配置xml文件属性前 推荐将linux中的/etc/hosts 文件中添加一个 (192.168.0.105 master)
在此前我配置成127.0.0.1会导致hadoop无法识别host 所以将其改为本地ip(本机是通过内网所以改为内网ip)
解压完后 需要在etc/hadoop/下配置若干文件(.xml)
1、 etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
2、 etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/local/hadoop/tmp/dfs/name</value>
</property>
</configuration>
3、mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
4、slave 主要是配置集群的时候需要用到
5、yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
详细配置参数介绍可以访问hadoop官网文档
配置完成后 在测试时推荐使用无密码ssh登录,测试方便否则每开启一个进程需要输入密码。。
设定本机的无密码ssh登陆
# ssh-keygen -t rsa
# cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
准备开始启动hadoop
首先格式化文件系统 hdfs
hdfs namenode -format
启动全家桶
# sbin/start-all.sh
启动后确认是否存在进程
# jps
查看是否存在NameNode DataNode SecondaryNameNode ResourceManger NodeManager
访问NameNode的web页面 http://localhost:50070/
访问ResourceManger的web页面 http://localhost:8088/
停止命令
# sbin/stop-all.sh
若想远程调试linux上的hadoop 我暂时是使用eclipse + 一个hadoop插件hadoop-eclipse-plugin(百度)
在使用时 还需要注意 需要下载hadoop.dll和winutile.exe放到hadoop的bin文件夹里 在电脑里也需要下载hadoop并配置环境(win7)
在运行 MapReduce 程序前,还需要执行一项重要操作(也就是上面提到的通过复制配置文件解决参数设置问题):将 /usr/local/hadoop/etc/hadoop 中将有修改过的配置文件(如伪分布式需要 core-site.xml 和 hdfs-site.xml),以及 log4j.properties 复制到配置文件中
最后推荐一个安装教程网址 http://www.powerxing.com/hadoop-build-project-using-eclipse/