安装并运行hadoop
本文地址:http://www.cnblogs.com/archimedes/p/run-hadoop.html,转载请注明源地址。
欢迎关注我的个人博客:www.wuyudong.com, 更多云计算与大数据的精彩文章
1.运行环境搭建
参见《Ubuntu 14.04下安装JDK8》 《Ubuntu14.04下安装Hadoop2.5.1 (单机模式)》
使用命令
sudo apt-get install subversion ssh ant
这个命令,把SSH、Ant和SVN安装
2.下载源代码
这是个开源的系统,代码很方便用SVN就可以下载到,版本也很多,在这里选择0.20.2版本,代码量少、简单
运行这个命令来下载:
svn co http://svn.apache.org/repos/asf/hadoop/common/tags/release-0.20.2/
下载完成后,会在当前文件夹内产生一个新文件夹release-0.20.2,这里面就是代码了。
为了后面方便操作,把这文件夹重命令一下:
mv release-0.20.2/ hadoop-0.20.2
打开hadoop-0.20.2文件夹:
刚下完的代码是无法直接运行的,编译前先修改一下build.xml,打开,将里面的版本号改成:0.20.2,如下:
用ant编译用的配置文件,所以直接在命令行里输入:
~/hadoop-0.20.2$ ant ~/hadoop-0.20.2$ ant jar ~/hadoop-0.20.2$ ant examples
3.配置SSH
参考《Ubuntu14.04下安装Hadoop2.5.1 (单机模式)》
4.修改配置文件
伪分布式的配置过程也很简单,只需要修改几个文件,在代码的conf文件夹内,就可以找到下面几个配置文件,分别配置成以下内容:
core-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/wu/hadoop-0.20.2/tmp</value> </property> </configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>mapred.job.tracker</name> <value>hdfs://localhost:9001</value> </property> </configuration>
进入conf文件夹,修改配置文件:hadoop-env.sh,将里面的JAVA_HOME注释打开,并把里面的地址配置正确:
5.运行hadoop
进入hadoop目录: $cd Hadoop-0.20.2
首次运行,需要格式化文件系统,输入命令:
bin/hadoop namenode -format
输入命令,启动所有进出:
bin/start-all.sh
关闭hadoop可以用:
bin/stop-all.sh
最后验证hadoop是否安装成功,打开浏览器,分别输入:
http://localhost:50030/ (MapReduce的web页面)
http://localhost:50070/ (HDFS的web页面)
如果都能查看,说明hadoop安装成功,如下图所示:
用jps命令看一下有几个java进程在运行,如果是下面几个就正常了:
系统启动正常后,现在来跑个程序:
$mkdir input $cd input $echo "hello world">test1.txt $echo "hello hadoop">test2.txt $cd .. $bin/hadoop dfs -put input in $bin/hadoop jar build/hadoop-0.20.2-examples.jar wordcount in out $bin/hadoop dfs -cat out/*
出现一长串的运行:
出现最后几行,说明运行成功:
参考资料
《Hadoop实战--第二版》