Fork me on GitHub
搭建Hadoop2.0自带实例运行

1. 运行wordcount[7]

       Wordcount相当于helloword这样的程序,不必多说。在平台正常启动的情况下,建立input的文件夹和两个文件test1,test2,充填大量的“hello world”和“hello hadoop”。将input上传到hdfs上,命令为haoop fs –put /usr/lib/hadoop2.0.0-alpha/input/* input。然后在/share/hadoop/mapreduce下执行hadoop jar hadoop-mapreduce-examples-2.0.0-alpha.jar wordcount input output,等待运行,完毕后将output下载hadoop fs –get output,然后查看运行结果cat output/*。

 

2. 运行randomwriter

       RandomWriter(随机写)例子利用 Map/Reduce把数据随机的写到dfs中。在由于没有设置,程序直接把空间写满了才停下来。导致虚拟机慢的要死,终于死机了一次。下面是产生的文件列表:

3. 浏览器实时监视

Hadoop2.0的监视功能十分强大,不仅能够实时观测到节点的状态,而且在应用提交后,就可以监测到应用执行的实时动态。对各部分产生的日志也可以方便地查阅,界面也算漂亮,下面是一个截图,第一个任务失败的原因是文件的目录没写正确,第二第三个运行成功。

 

小结:

由于在运行过程中还有很多错误提示,这两个实例只是证明这个平台勉强可以运行了。

 

总结:

       从6月25号到今天7月17号共三周多的努力,基本上完成了这个平台的搭建。有一些收获:

  1. 熟悉了linux操作系统
  2. 初步了解了hadoop的工作原理
  3. 摸索了一些发现问题和解决问题的方法

  这些收获写在这里,才发现我的入门过程还很久远,补课这个事情的确是很愁人的,既然走出第一步,剩下的就是坚持。下一步的工作是在平台上进行开发,这个难度比较大,可能会在hadoop原理的深入学习和Java编程的学习上花费大量的时间和精力。

 

参考文献:

[1]     http://dongxicheng.org/mapreduce-nextgen/apache-hadoop-2-0-alpha

[2]     http://blog.sina.com.cn/s/blog_59d2b1db0100ra6h.html

[3]     http://www.cnblogs.com/tangtianfly/archive/2012/04/11/2441760.html

[4]     http://hadoop.apache.org/common/docs/r2.0.0-alpha/

[5]     http://blog.csdn.net/shenshouer/article/details/7613234

[6]     http://www.linkedin.com/groups/Please-Help-Me-This-ERRORorgapachehadoophdfsservernamenodeNameNode-988957.S.115830635?qid=58283adf-47dc-43ba-879b-0612f3eb7cd7&trk=group_most_popular_guest-0-b-cmr&goback=.gmp_988957

[7]     http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html

 

 
分类: hadoop
posted on 2012-07-17 13:37  HackerVirus  阅读(180)  评论(0编辑  收藏  举报