Hadoop入门学习笔记之一

http://hadoop.apache.org/docs/r1.2.1/api/index.html

适当的利用 null 在map中可以实现对文件的简单处理，如排序，和分集合输出等。

需要关心的内容

一个节点面对的是一个Map任务，一个Map任务面对的是一个split文件，一个map方法面对的是一个split文件生成的键值对。

mapper类中map方法的输入是InputFormat的ReadeRecord类读取到的键值对

学习一周之后问题总结：

1.实验时使用的文件过小，大量小文件问题，需要通过处理，最终形成sequencefile进行处理。

2.在设置sequenceFileOutputFormat.class时，设置setOutputKeyClass() setOutoutvalueClass()，中的数据类型时，有问题，

3.sequenceFile相关的 recordreader不知道应该怎么使用，总是会有错。

4.在未设置reduce过程时，系统默认的是将key value都作为text进行输出。

5.文件划分split的大小还不会设置

6.文件划分，record读写的自定义函数还不会重载

7.输入文件夹和输出文件的路径，以及在不同运行环境中，指的是hdfs中的位置还是pc中的路径，还不太明白，在eclipse中虚拟云中不带hdfs://的是本地路径，在真正的云环境中运行则都代表hdfs中的路径

8.构建较大的数据集，如果采用程序将大量的小文件合并成云上的序列文件，时间非常长，如果将构建好的序列文件下载到本地，下次可以直接将该文件上传至云端，速度较快。

9.在大数据集是（分块64M）没有真正的分布在各个子节点中运行，是应为在eclipse环境中默认是使用的虚拟云。需要在代码中进行相关的配置，从而真正的运行到云端。

10.运行过程中class not found 、jar not found、500030端口中查看job运行为none登等情况的处理~

http://os.51cto.com/art/201305/392965.htm

如果程序中使用了系统的动态链接库.so文件，执行作业之前一定要首先确保每台节点上的执行环境已经配置好，特别是节点中有64位和32位的机器时，

首先将自己的自定义库代码针对不同的平台进行编译。（特别是在使用了JNI的情况下），否则最终的分配给节点的任务还是执行失败。

编译打包：

引用的外部包路径+java源码路径+class输出路径

（将.java文件编译成.class文件，将.class文件打包成.jar文件，jar文件的名字可以随便起）

$ javac -classpath /home/sunny/usr/hadoop-1.2.1/hadoop-core-1.2.1.jar:/home/sunny/usr/hadoop-1.2.1/lib/commons-cli-1.2.jar -d ./classes ./src/test/example/Facelib.java ./src/newMatching/*.java
$ jar -cvf newMatching.jar -C ./classes/ .

放到云端执行：

jar包+主类的包名.主类名

sunny@MASTERPC:~/usr/hadoop-1.2.1/bin$ ./hadoop jar /home/sunny/workspace/eclipse/newMatching/newMatching.jar newMatching.MatchDoer

在分布式计算的时候，datanode节点需要从hdfs文件系统上将Job的jar文件下载到本地磁盘进行本地计算，所以需要在终端中提交任务的时候将jar包提交上去。

在eclipse中Run on hadoop 是在eclipse的虚拟云上进行执行的，没有生成jar文件。

在分布式执行的过程中可能遇到的问题：

1. class not found， job代码中添加job.setJarByClass(xxx.class);(xxx是自己的主类)

2. native lib .so not found，如果使用了系统中的动态链接库，则需要保证每台及节点系统中已经配安装了相应的库文件，特别是在使用了JNI的情况下。

3.在eclipse中直接点击Run on Hadoop，默认使用的是本地文件系统，LocalFileSystem，如果文件路径前没有显示的加上hdfs://master:9000/所处理的

就是本地磁盘路径。如果在代码中添加：

conf.set("fs.default.name", "hdfs://master:9000/");  //在你的文件地址前自动添加：hdfs://master:9000/  
conf.set("hadoop.job.user","yourname");  
conf.set("mapred.job.tracker","master:9001");

这样文件路径默认的就是HDFS分布式文件系统上的了。

综上：

1.eclipse中的hadoop就是在本地运行的java程序，（文件存储在本地磁盘，没有jobTrack进行作业调度，程序顺序执行）；

2.加上conf.set之后文件系统使用的是hdfs，但依然没有jobTracker，进行map的节点只有本机一个，程序顺序执行；

3.通过终端命令进行job申请和提交才会触发jobtracker进行真正的分布式计算。

>>开发过程：

1.在eclipse中coding；

2.在eclipse中运行通过；　　　　　　　　　　　　　　（Run on Hadoop）

3.将eclipse生成的bin目录下的class文件打包成.jar文件；（jar -cvf yourname.jar -C ./bin .）

4.在命令行中提交作业，进行分布式执行；　　　　　　　（./hadoop jar yourname.jar packename.classname args1 args2）

其中1~3步骤是编程调试阶段，第4步是真正运行阶段。　　^.^

master独自运行job　　　　　　　　分布式运行

另一种方案：

在代码中添加： conf.set("mapred.job.tracker", "master:9000");

之后eclipse中的Run on hadoop 就会在云端执行（而不是仅仅在当前节点上map），但是其他节点会class not found异常（不知道是应为jar没找到还是主类没找到）；

在eclipse工程上右键java build path->add external jar 上选中自己用jar -cvf生成的jar包，然后执行run on hadoop就可以分布式执行了。

使用这种方法之后，每次修改了程序后要先生成jar，然后在在eclipse中run on hadoop

（不知道对不对， java程序都是执行在vm上的，不需要知道hadoop的安装路径，执行job相关的程序就可以提交作业；jar是给别的节点用的，java程序是给自己执行的，

直接执行java程序仅仅是默认没有读取hadoop的配置文件，所以需要在程序中明确的指明hdfs和jobtracker）

在eclipse中开发，hadoop的配置文件什么时候生效，很困惑，直接在eclipse中点击Run运行，hadoop的conf下配置文件的有些选项不生效。

要在代码里conf.set("name",value);，但是单机模式时conf.set("mapred.child.java.opts","-Xss1m");也不生效，必须在RunConfigurations中配置VM变量。

从源码中可以看到，hadoop jar xxx.jar xxx ,hadoop脚本对参数jar的处理时调用RunJar类，该类的源码在src/core/org/apache/hadoop/util下，

其中的main函数（args， jar， manifest， unjar， runtime）

以上费劲周折使程序运行在真正的分步式化境中，但是这是又会有新的问题出现：

1.在程序中使用本地磁盘的路径：LocalFileSystem，或者对于FileInputStream这样的java API默认使用的就是本地地址，也可以使用LocalFileSystem

2.程序中的调试信息输出问题：eclipse中的虚拟环境为单机运行，所以程序执行起来与普通java程序类似，所有打印信息都在eclipse的console中输出，

当成许运行在分布式环境中时， main中的system.out,system.err等调试信息会在提交作业的终端中显示，但是mapper和reducer中的调试信息则不会显示到终端中，

查看他们的调试信息只能到web上的500030的JobTracker中找到相应的map task的log信息中查看。

参考：http://blog.csdn.net/azhao_dn/article/details/8003998

3.程序的修改，更改之后要先重新生成jar，才能是修改生效。

4. 在分布式环境中程序不仅仅运行在本节点上，所以一定要保证程序所需的数据、链接库等在各个节点上都具备

从以上几点来看，在开发阶段使用eclipse的虚拟云可以大大提高开发和调试的效率。

分布式的节点在启动hadoop服务之后，会读取本节点中hadoop安装文件夹中conf下的配置文件，hdfs-site.xml下配置的相关

真正的分布式环境配置成功之后，如果启动了hdfs服务之后，有些datanode没有启动，则应该检查各个节点hadoop的配置文件是否相同。

（待思考的问题：各个分布式节点用户名要相同， hadoop安装目录要相同，hadoop配置文件要相同， java路径随便）

也可以尝试将各个节点/tmp/hadoop相关目录删除，yourhadooppath/logs/内容目录删除，重新namenode -format

跟namenode、jobtracker相关的配置选项只对master节点有作用，其他hdfs相关配置会对每个节点起作用。

配置文件、log文件、tmp临时文件对hadoop 各节点的正常运行还是很重要的。

hadoop中配置文件的相关选项还是不太了解。。。。。。

有时候4个节点都正常启动了，但是stop-all.sh之后再启动，关机某些节点在开启之后，启动服务，往往是最后启动的机器能够启动

dfs节点，这种开关机不同步导致的datanode节点不能正常完全启动的问题，。。。。全部重启，namenode -format，

集群节点较多的时候并不是mapper过程完全结束之后才开始reduce，很能在mapper完成大半后就开始reduce了。

setNumOfReduce之后，去掉了reduce过程，最终的输出结果是未经排序的！

有几个mapper就会将几个mapper的结果输出到最后的几个文件中part-m-0000

reduce的执行节点根据具体的执行状况分配给某节点进行，并不固定。

如果上传分块过小（<64M），则系统不再自动分块，也不会自动合并，按照上传分块为单位分配给mapper处理。

编写程序时的注意：

在反复遍历生成文件时，由于数据量很大，所以在循环内外的变量分配很重要，不然内存会溢出。

打开的文件流，使用完之后一定要记得关闭。

定义的变量，在使用之前一定记得new 否则会产生null pointer的异常。

如果在mapper或者reducer中设置了全局变量，而在使用中这些变量又与初始值相关（如直接|、&、^，++等），则需要注意在一个单元使用完成之后进行

初始化，特别是reduce中对应的是key+list链表，一个key的所有value处理完成之后需要对全局变量进行初始化，为下一个key的处理做准备！

hadoop的运行效率不仅仅与节点的个数有关，job中的任务执行，文件的读写，数据量的划分，网路传输，精简不必要的工作

每个代码块的执行效率有关。

配置最大map和reduce并行task数量：

mapred-site.xml 配置：mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum，默认都是2.

要求reduce<map，这样可以留有一些备用节点，提高故障时作业的恢复时间，如果reduce>map，那么空余的reduce没有文件输入但是还是会

启动task生成空文件，浪费了系统资源和效率。

将大量的较小的中间键值对合并成较少的较大的中间键值对，以减少网络中的流量（for reduce），在大数据处理时优势会显现的非常明显，可以通过web界面

查看各个过程处理的键值对数量。

mapreduce框架：

inputformat（文件分割+键值对生成） map 排序 combine（相同key的value累加） partitioner（hash映射分组）

排序+相同key构成value-list reduce（生成键值对） outputformat（写回HDFS）

过程中的系统默认：

TextInputFormat：将输入文件作为文本文件处理，生成行行文本的键值对

IdentityMapper：将输入的键值对原封不动的输出

Combiner：null ，不进行中间结果的合并

Partitioner: HashPartitioner, 用hash进行分组

IdentityReducer: 将输入的中间结果键值对直接输出键值对

TextOutputFormat：将最终键值对结果生成文本文件，每行一个<key, value>对， key 和 value之间用tab分隔。

---

setOutputKeyClass， setOutputValueClass来设置最终的key、value的类型（？），setMapOutputKeyClass, 默认情况下和最终结果的键值对类型相同。

键值对的类型对如何解析、理解和处理数据时有影响的。

combiner在编程时就等同于reduce，只有类的名称不同，（可能combiner的输入也是经过中间的排序和累加之后）

没有combine后，reduce接收到的就不再是<key，list<value>>的形式了。

综上： mapred默认框架是将输入文本文件按行解析，排序，最后按照<key, value>每行的形式输出到文本文件中。

其key的默认类型时Longwritabel, value的默认类型是Text，Long可以转化输出到文本中，显示的还是long数据的值。

当数据量很大时，在reduce函数中进行本地排序往往不可行，算法对于不同大小的数据集不通用

通用框架的自定义：根据输入的键值对进行处理，然后利用context上下文书写自己的下一阶段的键值对。

在进行combiner编程时，就把他当做是reducer。

要充分的利用系统的排序功能。

如果此时你run java aplication,你的程序只会在eclipse中虚拟的一个云环境中运行，而不会跑上云端去运行，所以无法再master:50070/jobtracker.jsp页面中监控到该作业；需要在main方法中添加几行代码，代码附录如下：

//在你的文件地址前自动添加：hdfs://master:9000/  
conf.set("fs.default.name", "hdfs://master:9000/");  
conf.set("hadoop.job.user","mango");    
//指定jobtracker的ip和端口号，master在/etc/hosts中可以配置  
conf.set("mapred.job.tracker","master:9001");

MapReduce框架

任务调度程序，将任务并行的分给节点进行计算

将输入文件划分为split供Mapper类使用，考虑到数据要尽量进行本地运算，所以划分的split的大小应该<=文件块的存储大小（64M）

在完成combine和shuffle之后map的中间结果被直接写到本地磁盘，通知JpbTracker中间结果文件的位置，再由JobTracker告知Reducer到

哪个Datanode上去取中间结果。每个Reducer要想多个Mapper节点取得落在其负责范围内的中间结果然后执行reduce函数，形成一个最终结果文件。

执行过程：

job执行前的工作：

1.编写MapReduce代码，编译，打包成jar

2.将数据上传到HDFS上，分布式系统HDFS会自动将大文件划分成块进行分布式存储（FlieBlockLocations）

终端申请提交作业：

outputformat检查job输出目录是否已经存在，进行出错检查。

inputformat将HDFS上的job inputpath中的逻辑文件划分成逻辑的split块，（List<split>将记录每块在源文件中的偏移量和所在的主机）

将MapReduce的jar包、配置文件、split list信息上传到HDFS的一个目录中，（以Job ID作为目录名）

提交作业完毕

JobTracker：

将终端提交的作业放到作业队列中

开始执行当前作业时，首先将作业目录中的InputSplit信息取出来，根据实际运行情况为每个InputSplit创建一个Map任务

创建reduce等任务

TaskTracker

接到新任务后，将这个任务的程序jar文件、数据split从HDFS上复制到本地磁盘上，进行本地计算。

配置环境相关不错的网址：http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.html

posted @ 2015-01-30 20:34 sunnycs 阅读(296) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Hadoop入门学习笔记之一

公告