Hadoop入门学习笔记之一

http://hadoop.apache.org/docs/r1.2.1/api/index.html

适当的利用 null 在map中可以实现对文件的简单处理,如排序,和分集合输出等。

 

需要关心的内容

 

一个节点面对的是一个Map任务,一个Map任务面对的是一个split文件,一个map方法面对的是一个split文件生成的键值对。

mapper类中map方法的输入是InputFormat的ReadeRecord类读取到的键值对

 

学习一周之后问题总结:

1.实验时使用的文件过小,大量小文件问题,需要通过处理,最终形成sequencefile进行处理。

2.在设置sequenceFileOutputFormat.class时,设置setOutputKeyClass() setOutoutvalueClass(),中的数据类型时,有问题,

3.sequenceFile相关的 recordreader不知道应该怎么使用,总是会有错。

4.在未设置reduce过程时,系统默认的是将key value都作为text进行输出。

5.文件划分split的大小还不会设置

6.文件划分,record读写的自定义函数还不会重载

7.输入文件夹和输出文件的路径,以及在不同运行环境中,指的是hdfs中的位置还是pc中的路径,还不太明白,在eclipse中虚拟云中不带hdfs://的是本地路径,在真正的云环境中运行则都代表hdfs中的路径

8.构建较大的数据集,如果采用程序将大量的小文件合并成云上的 序列文件,时间非常长,如果将构建好的序列文件下载到本地,下次可以直接将该文件上传至云端,速度较快。

9.在大数据集是(分块64M)没有真正的分布在各个子节点中运行,是应为在eclipse环境中默认是使用的虚拟云。需要在代码中进行相关的配置,从而真正的运行到云端。

10.运行过程中class not found 、jar not found、500030端口中查看job运行为none登等情况的处理~

http://os.51cto.com/art/201305/392965.htm

 

 

如果程序中使用了系统的动态链接库.so文件,执行作业之前一定要首先确保每台节点上的执行环境已经配置好,特别是节点中有64位和32位的机器时,

首先将自己的自定义库代码针对不同的平台进行编译。(特别是在使用了JNI的情况下),否则最终的分配给节点 的任务还是执行失败。

 

 

编译打包:

引用的外部包路径+java源码路径+class输出路径

(将.java文件编译成.class文件, 将.class文件打包成.jar文件,jar文件的名字可以随便起)

$ javac -classpath /home/sunny/usr/hadoop-1.2.1/hadoop-core-1.2.1.jar:/home/sunny/usr/hadoop-1.2.1/lib/commons-cli-1.2.jar -d ./classes ./src/test/example/Facelib.java ./src/newMatching/*.java
$ jar -cvf newMatching.jar -C ./classes/ .

 放到云端执行:

jar包+主类的包名.主类名

sunny@MASTERPC:~/usr/hadoop-1.2.1/bin$ ./hadoop jar /home/sunny/workspace/eclipse/newMatching/newMatching.jar newMatching.MatchDoer

 

在分布式计算的时候,datanode节点需要从hdfs文件系统上将Job的jar文件下载到本地磁盘进行本地计算,所以需要在终端中提交任务的时候将jar包提交上去。

在eclipse中Run on hadoop 是在eclipse的虚拟云上进行执行的,没有生成jar文件。

在分布式执行的过程中可能遇到的问题:

1. class not found, job代码中添加job.setJarByClass(xxx.class);(xxx是自己的主类)

2. native lib  .so not found, 如果使用了系统中的动态链接库,则需要保证每台及节点系统中已经配安装了相应的库文件,特别是在使用了JNI的情况下。

3.在eclipse中直接点击Run on Hadoop,默认使用的是本地文件系统,LocalFileSystem, 如果文件路径前没有显示的加上hdfs://master:9000/所处理的

就是本地磁盘路径。如果在代码中添加:

conf.set("fs.default.name", "hdfs://master:9000/");  //在你的文件地址前自动添加:hdfs://master:9000/  
conf.set("hadoop.job.user","yourname");  
conf.set("mapred.job.tracker","master:9001");  

这样文件路径默认的就是HDFS分布式文件系统上的了。

综上:

1.eclipse中的hadoop就是在本地运行的java程序,(文件存储在本地磁盘,没有jobTrack进行作业调度,程序顺序执行);

2.加上conf.set之后文件系统使用的是hdfs,但依然没有jobTracker,进行map的节点只有本机一个,程序顺序执行;

3.通过终端命令进行job申请和提交才会触发jobtracker进行真正的分布式计算。

>>开发过程:

1.在eclipse中coding;

2.在eclipse中运行通过;                (Run on Hadoop)

3.将eclipse生成的bin目录下的class文件打包成.jar文件;(jar -cvf yourname.jar  -C ./bin  .)

4.在命令行中提交作业,进行分布式执行;       (./hadoop jar  yourname.jar packename.classname args1 args2)

其中1~3步骤是编程调试阶段,第4步是真正运行阶段。  ^.^

 

 

 master独自运行job        分布式运行

另一种方案:

在代码中添加: conf.set("mapred.job.tracker", "master:9000");

之后eclipse中的Run on hadoop 就会在云端执行(而不是仅仅在当前节点上map),但是其他节点会class not found异常(不知道是应为jar没找到还是主类没找到);

在eclipse工程上右键java build path->add external jar 上选中自己用jar -cvf生成的jar包,然后执行run on hadoop就可以分布式执行了。

 使用这种方法之后,每次修改了程序后要先生成jar,然后在在eclipse中run on hadoop

(不知道对不对, java程序都是执行在vm上的, 不需要知道hadoop的安装路径,执行job相关的 程序就可以提交作业;jar是给别的节点用的,java程序是给自己执行的,

 直接执行java程序仅仅是默认没有读取hadoop的配置文件,所以需要在程序中明确的指明hdfs和jobtracker)

 

在eclipse中开发,hadoop的配置文件什么时候生效,很困惑,直接在eclipse中点击Run运行,hadoop的conf下配置文件的有些选项不生效。

要在代码里conf.set("name",value);,但是单机模式时conf.set("mapred.child.java.opts","-Xss1m");也不生效,必须在RunConfigurations中配置VM变量。

 

 

从源码中可以看到,hadoop jar xxx.jar xxx ,hadoop脚本对参数jar的处理时调用RunJar类,该类的源码在src/core/org/apache/hadoop/util下,

其中的main函数(args, jar, manifest, unjar, runtime)

 

以上费劲周折使程序运行在真正的分步式化境中,但是这是又会有新的问题出现:

 1.在程序中使用本地磁盘的路径:LocalFileSystem,或者对于FileInputStream这样的java API默认使用的就是本地地址,也可以使用LocalFileSystem

2.程序中的调试信息输出问题:eclipse中的虚拟环境为单机运行,所以程序执行起来与普通java程序类似,所有打印信息都在eclipse的console中输出,

当成许运行在分布式环境中时, main中的system.out,system.err等调试信息会在提交作业的终端中显示,但是mapper和reducer中的调试信息则不会显示到终端中,

查看他们的调试信息只能到web上的500030的JobTracker中找到相应的map task的log信息中查看。

 参考:http://blog.csdn.net/azhao_dn/article/details/8003998

 3.程序的修改,更改之后要先重新生成jar,才能是修改生效。

 4. 在分布式环境中程序不仅仅运行在本节点上,所以一定要保证程序所需的 数据、链接库等在各个节点上都具备

 

从以上几点来看,在开发阶段使用eclipse的虚拟云可以大大提高开发和调试的效率。

 

分布式的节点在启动hadoop服务之后,会读取本节点中hadoop安装文件夹中conf下的配置文件,hdfs-site.xml下配置的相关

 

真正的分布式环境配置成功之后,如果启动了hdfs服务之后,有些datanode没有启动,则应该检查各个节点hadoop的配置文件是否相同。

(待思考的问题:各个分布式节点用户名要相同, hadoop安装目录要相同,hadoop配置文件要相同, java路径随便)

也可以尝试将各个节点/tmp/hadoop相关目录删除,yourhadooppath/logs/内容目录删除,重新namenode  -format

 

跟namenode、jobtracker相关的配置选项只对master节点有作用,其他hdfs相关配置会对每个节点起作用。

配置文件、log文件、tmp临时文件对hadoop 各节点的正常运行还是很重要的。

 hadoop中配置文件的相关选项还是不太了解。。 。。。 。

 

有时候4个节点都正常启动了,但是stop-all.sh之后再启动,关机某些节点在开启之后,启动服务,往往是最后启动的机器能够启动

dfs节点,这种开关机不同步导致的datanode节点不能正常完全启动的问题,。。。。全部重启,namenode -format,

 

集群节点较多的时候并不是mapper过程完全结束之后才开始reduce,很能在mapper完成大半后就开始reduce了。

setNumOfReduce之后,去掉了reduce过程,最终的输出结果是未经排序的!

有几个mapper就会将几个mapper的结果输出到最后的几个文件中part-m-0000

 reduce的执行节点根据具体的执行状况分配给某节点进行,并不固定。

 如果上传分块过小(<64M),则系统不再自动分块,也不会自动合并,按照上传分块为单位分配给mapper处理。

 

编写程序时的注意:

在反复遍历生成文件时,由于数据量很大,所以在循环内外的变量分配很重要, 不然内存会溢出。

打开的文件流,使用完之后一定要记得关闭。

定义的变量,在使用之前一定记得new 否则会产生null pointer的异常。

如果在mapper或者reducer中设置了全局变量,而在使用中这些变量又与初始值相关(如直接|、&、^,++等),则需要注意在一个单元使用完成之后进行

初始化,特别是reduce中对应的是key+list链表,一个key的所有value处理完成之后需要对全局变量进行初始化,为下一个key的处理做准备!

 

hadoop的运行效率不仅仅与节点的个数有关,job中的任务执行,文件的读写,数据量的划分,网路传输,精简不必要的工作

每个代码块的执行效率有关。

 

 

 

配置最大map和reduce并行task数量:

mapred-site.xml 配置:mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum, 默认都是2.

要求reduce<map, 这样可以留有一些备用节点,提高故障时作业的恢复时间,如果reduce>map,那么空余的reduce没有文件输入但是还是会

启动task生成空文件,浪费了系统资源和效率。

 

将大量的较小的中间键值对合并成较少的较大的中间键值对, 以减少网络中的流量(for reduce),在大数据处理时优势会显现的非常明显,可以通过web界面

查看各个过程处理的键值对数量。

 

mapreduce框架:

inputformat(文件分割+键值对生成)      map    排序     combine(相同key的value累加)      partitioner(hash映射分组)

排序+相同key构成value-list     reduce(生成键值对)   outputformat(写回HDFS)

 

过程中的系统默认:

TextInputFormat:将输入文件作为文本文件处理, 生成行行文本的键值对

IdentityMapper:将输入的键值对 原封不动的 输出

Combiner:null , 不进行中间结果的合并

Partitioner: HashPartitioner, 用hash进行分组

IdentityReducer: 将输入的中间结果键值对直接输出键值对

TextOutputFormat:将最终键值对结果生成文本文件, 每行一个<key, value>对, key 和 value之间用tab分隔。

---

setOutputKeyClass, setOutputValueClass来设置最终的key、value的类型 (?),setMapOutputKeyClass, 默认情况下和最终结果的键值对类型相同。

键值对 的类型对如何解析、理解和处理数据时有影响的。

combiner在编程时就等同于reduce,只有类的名称不同,(可能combiner的输入也是经过中间的排序和累加之后)

没有combine后,reduce接收到的就不再是<key,list<value>>的形式了。

 

综上: mapred默认框架是将输入文本文件按行解析, 排序, 最后按照<key, value>每行的形式输出到文本文件中。

其key的默认类型时Longwritabel, value的默认类型是Text,Long可以转化输出到文本中,显示的还是long数据的值。

 

 

 

 

当数据量很大时, 在reduce函数中进行本地排序往往不可行,算法对于不同大小的数据集不通用

 

 

通用框架的自定义: 根据输入的键值对进行处理,然后利用context上下文书写自己的下一阶段的键值对。

 

 

在进行combiner编程时,就把他当做是reducer。

要充分的利用系统的排序功能。

 

 

如果此时你run java aplication,你的程序只会在eclipse中虚拟的一个云环境中运行,而不会跑上云端去运行,所以无法再master:50070/jobtracker.jsp页面中监控到该作业;需要在main方法中添加几行代码,代码附录如下:

 

//在你的文件地址前自动添加:hdfs://master:9000/  
conf.set("fs.default.name", "hdfs://master:9000/");  
conf.set("hadoop.job.user","mango");    
//指定jobtracker的ip和端口号,master在/etc/hosts中可以配置  
conf.set("mapred.job.tracker","master:9001");  

 

 

 

MapReduce框架

任务调度程序,将任务并行的分给节点进行计算

将输入文件划分为split供Mapper类使用, 考虑到数据要尽量进行本地运算,所以划分的split的大小应该<=文件块的存储大小(64M)

在完成combine和shuffle之后map的中间结果被直接写到本地磁盘,通知JpbTracker中间结果文件的位置, 再由JobTracker告知Reducer到

哪个Datanode上去取中间结果。 每个Reducer要想多个Mapper节点取得落在其负责范围内的中间结果然后执行reduce函数,形成一个最终结果文件。

 

执行过程:

job执行前的工作:

1.编写MapReduce代码,编译,打包成jar

2.将数据上传到HDFS上,分布式系统HDFS会自动将大文件划分成块进行分布式存储(FlieBlockLocations)

终端申请提交作业:

outputformat检查job输出目录是否已经存在,进行出错检查。

 inputformat将HDFS上的job inputpath中的逻辑文件划分成逻辑的split块,(List<split>将记录每块在源文件中的偏移量和所在的主机)

将MapReduce的jar包、配置文件、split list信息上传到HDFS的一个目录中,(以Job ID作为目录名)

提交作业完毕

 

JobTracker:

将终端提交的作业放到作业队列中

开始执行当前作业时,首先将作业目录中的InputSplit信息取出来,根据实际运行情况为每个InputSplit创建一个Map任务

创建reduce等任务

 

TaskTracker

接到新任务后,将这个任务的程序jar文件、数据split从HDFS上复制到本地磁盘上,进行本地计算。

 

 

 

 

配置环境相关不错的网址:http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.html

posted @ 2015-01-30 20:34  sunnycs  阅读(296)  评论(0编辑  收藏  举报