mapreduce学习笔记

本文是对mapreduce技术的一个初步学习的总结，包括如下章节的内容：

概述
发展史
基本概念
程序编写
运行测试
其它案例

参考资料：

1、本文介绍的内容依赖hadoop环境，关于hadoop运行环境的搭建可参见《Hadoop运行环境搭建》。

2、mapreduce的编程模型设计受到了函数式编程中的的map和reduce原语的启发，为了有助于更好的理解mapreduce的编程模型，可先阅读《函数式编程之集合操作》。

一、概述

大数据的应用，有两个最核心的任务要处理，一是海量数据的存储，二是对海量数据的分析和处理。hadoop分别提供了分布式文件系统hdfs和分布式计算框架mapreduce来解决。其中mapreduce是来解决海量数据的分析和处理的。

但是我们在实际的开发中，很少会去编写mapreduce代码来进行大数据的分析处理。我们更多的是听到的是诸如hive, spark,storm这些技术，更多的大数据学习者也是学习这些技术。这是为什么呢？

这主要是有两个原因，一是mapreduce是一种适合离线数据分析的技术，其效率上比较低，不能满足一些低时延需求的数据分析业务，低时延的数据处理往往采用诸如spark,storm这些技术。

其次，使用mapreduce需要根据业务场景来设计map和reduce的处理逻辑，编写java代码，并提交到集群上执行，这属于比较底层的操作，对程序员的要求较高。而hive等技术借鉴了关系数据库的特点，提供大家很熟悉的类sql机制，可以让程序员以较低门槛的方式来处理大数据。

那为什么我们还要来学习mapreduce呢？首先它是大数据处理的最早解决方案或者说是鼻祖，而且是hive等技术的基础（Hive是将类sql语句最终转换成mapreduce程序来处理），学习它，有助于加深对hive等技术的使用。其次数据处理的思路是相同的，了解mapreduce的机制和原理，对熟悉其它大数据分析处理技术（如spark,storm,impala等）也是有帮助的。最后，虽然现在直接编写mapreduce程序很少了，但在某些应用场景下，编写mapreduce程序就是很好的解决方案。综上所说，作为一个大数据技术的学习者，是非常有必要来学习mapreduce技术的。

二、发展史

mapreduce是跟随hadoop一起推出的，分为第一代（称为 MapReduce 1.0或者MRv1，对应hadoop第1代）和第二代（称为MapReduce 2.0或者MRv2，对应hadoop第2代）。

第一代MapReduce计算框架，它由两部分组成：编程模型（programming model）和运行时环境（runtime environment）。它的基本编程模型是将问题抽象成Map和Reduce两个阶段，其中Map阶段将输入数据解析成key/value，迭代调用map()函数处理后，再以key/value的形式输出到本地目录，而Reduce阶段则将key相同的value进行规约处理，并输出最终结果。它的运行时环境由两类服务组成：JobTracker和TaskTracker，其中，JobTracker负责资源管理和所有作业的控制，而TaskTracker负责接收来自JobTracker的命令并执行它。

MapReduce 2.0或者MRv2具有与MRv1相同的编程模型，唯一不同的是运行时环境。MRv2是在MRv1基础上经加工之后，运行于资源管理框架YARN之上的MRv1，它不再由JobTracker和TaskTracker组成，而是变为一个作业控制进程ApplicationMaster，且ApplicationMaster仅负责一个作业的管理，至于资源的管理，则由YARN完成。

总结下，MRv1是一个独立的离线计算框架，而MRv2则是运行于YARN之上的MRv1。

作为MapReduce 程序的开发人员，尤其是初学者，我们在了解其原理的基础上，重要的是学会如何使用框架提供的api去编写代码。MapReduce 的api分为新旧两套，新旧api位于不同的java包中。其中旧的api位于org.apache.hadoop.mapred包（子包）中，新的api位于org.apache.hadoop.mapreduce包（子包）中。本文介绍的例子使用的都是新的api。

三、基本概念

我们编写mapreduce程序（后面用mr来简称mapreduce）是用来进行数据处理的，每次数据的处理我们称为一个mr作业（或任务）。一个mr任务的处理过程分为两个阶段：map阶段和 reduce阶段。

每个阶段都以键值对（key-value对）作为输入和输出，其数据类型是由程序员来选择的，即在代码中设置的。其程序执行的基本的过程如下：

1、mr框架读取待处理的数据（一般来自HDFS文件)，生成map阶段所有的key-value数据集合,交由map阶段处理。

2、map阶段处理上面的key-value数据，生成新的key-value数据集合。map阶段的处理的核心就是由框架调用一个程序员编写的map函数来处理。每个输入的键值对都会调用一次map函数来处理，map函数的输出结果也是key-value键值对。

3、框架对所有map阶段的输出数据进行排序和分组（这过程称为shuffle），生成新的key-value数据集合，交由reduce处理。

4、reduce阶段会对数据进行操作，最后也是生成key-value数据，这也是mr任务最终的输出结果。reduce阶段的处理的核心就是框架调用一个程序员编写的reduce函数来处理。每个输入的键值对都会调用一次reduce函数来处理，reduce函数的输出结果也是key-value键值对，就是最终的结果。

我们下面通过一个具体的例子来进一步理解mr的运行机制。该例子是，从文件中统计单词重复出现的次数。假设输入的文件中的内容如下：

mary jack
this is jack
he is mary

对于上述待处理文件，mr框架会读取文件中的内容，生成给map处理的key-value集合，生成的数据内容如下（注意下面只是示意，不是实际的存储格式）：

(1,  mary jack)
(10,this is jack)
(22,he is mary)

对于文本文件，在默认情况下，mr框架生成的key-value的key是每行的首字符在文件中的位置，value是每行的文本，如上面的数据。

对于上面的每对key-value数据，会交给map处理，本例子是为了获取单词重复的次数，首先需要将单词区分出来，显然，map阶段可以用来干这个事，这样我们map阶段可以有这样的输出（我们这里先直接给出结果，后面会有具体的代码）：

(mary,1)
(jack,1)
(this,1)
(is,1)
(jack,1)
(he,1)
(is,1)
(mary,1)

也就是map阶段输出的key-value对是每个单词，其中key是单词本身，value是固定值为1。

map处理后，框架会对Map输出的Key-value数据基于key来对数据进行排序和分组（这过程称为shuffle）,结果数据如下：

(mary,[1,1])
(jack,[1,1])
(this,[1])
(is,[1,1])
(he,[1])

可以看出，shuffle操作的结果是，将map输出数据中相同Key的value进行合并成列表，生成新的key-value数据，传给reduce。

这样，reduce要做的事情就很简单了，就是将每对key-value数据中的value中的各个元素的值汇总即可。输出结果如：

he  1
is  2
jack  2
mary  2
this  1

上面就是整个Mr程序最终的输出结果。

Mr程序是用来计算海量数据的，提交一次Mr任务到集群上，一般会由多个map来同时处理（每个map位于一个节点上）。

框架会将待处理的数据分成1个或多个“输入分片（split）”，每个map只处理一个分片，每个分片被划分为若干条记录，每条记录就是一个键/值对，map就是一个接一个的处理这些键/值对，也就是说，对于每个键/值对，Map函数都会被执行一次，这个分片中有多少个键/值对，该map类中的map函数就会被调用多少次。

reduce任务的数量不是由输入数据的大小决定的，而是由程序员在代码中指定的，默认是1。如果是1，则map所有的输出数据都由该reduce节点来处理。如果是多个，则由框架将所有map的输出数据依据一定规则分为各个部分交给各个reduce分别处理。

下图是一个mr任务的数据流程图，可以比较清晰的展示上面描述的过程。

(摘自Hadoop权威指南一书)

四、程序编写

编写一个简单的mr程序，一般至少需要编写3个类，分别是：

1、Mapper类的一个继承类，用于实现map函数；

2、Reducer类的实现类，用于实现reduce函数；

3、程序入口类（带main方法的），用于编写mr作业运行的一些代码。

下面我们以上一节提到的统计单词重复次数的例子来介绍如何编写Mr程序代码。hadoop版本中也自带了这个例子的代码，具体位置位于hadoop安装目录下的

share\hadoop\mapreduce\sources\hadoop-mapreduce-examples-2.7.6-sources.jar文件中。

第一，首先编写Mapper类的继承类，重写map函数，类的完整代码如下：

package com.mrexample.wordcount;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class CountMap extends Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable intValue = new IntWritable(1);
    private Text keyword = new Text();
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
         String[] values = value.toString().split(" ");
         for (String item : values) {
             if(item.isEmpty()){
                 continue;
             }
             keyword.set(item);
             context.write(keyword, intValue);
         }
    }
}

Mapper类是一个泛型类型，它有4个形参类型，需要程序员来指定，这4个类型按顺序分别是输入给map函数的键值对数据的key的类型和value的类型，以及map输出键值对数据的key的类型和value的类型。因为对于单词统计这个例子，map输入的key为数值（对应mr中的类型为LongWritable,类似java中的long类型），value为字符串（对应mr中的类型为Text,类似java中的String类型），map输出的key类型是字符串，value类型是数值。

Mapper类的map方法（函数）有3个参数，前2个参数对应map输入键值对数据的key的类型和value的类型，即和Mapper类的前两个泛型参数一致。第3个参数是Context 类型，用于写入map函数处理后要输出的结果。

map方法的处理逻辑很简单，输入的key不关心，把输入的value（即每行数据）进行字符串split操作获得字符串中的各个单词，然后通过Context 类的write方法将结果输出。

第二，然后编写Reducer类的继承类，重写reduce函数，类的完整代码如下：

package com.mrexample.wordcount;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class CountReduce extends Reducer<Text, IntWritable, Text, IntWritable>{
    private IntWritable wordNum = new IntWritable();
    @Override
    protected void reduce(Text key, Iterable<IntWritable> value, Context context)
            throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : value) {
            sum += val.get();
        }
        wordNum.set(sum);
        context.write(key, wordNum);
    }
}

Reducer类也是一个泛型类，同Mapper类类似，也有4个参数类型，用于指定输入和输出类型。需要注意的是，Reducer类的输入类型必须匹配Mapper类的输出类型，这个很好理解，因为Map的输出就是reduce的输入。

reduce方法（函数）也有3个参数，第1个参数是输入键值对的键，第2个参数是一个迭代器，对应map输出后由框架进行shuffle操作后的值的集合，第3个参数Contex用于写输出结果的。

reduce方法的逻辑也比较简单，因为我们要统计单词的重复个数，所以就对第2个参数进行遍历，算出总数即可。然后按照key-value的方式通过Context参数输出。

第三，有了map和reduce代码，还需要编写一个java入口类，用于完成Mr任务的相关设置，完整代码如下：

package com.mrexample.wordcount;
import java.io.IOException;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class CountMain {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance();
        //指定本job所在的jar包     
        job.setJarByClass(CountMain.class);
        //设置本job所用的mapper逻辑类和reducer逻辑类
        job.setMapperClass(CountMap.class);
        job.setReducerClass(CountReduce.class);
        //设置最终输出的kv数据类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //设置输入和输出文件的路径
        FileInputFormat.setInputPaths(job, new Path("实际输入路径或文件"));
        FileOutputFormat.setOutputPath(job, new Path("实际输出路径"));
        //提交job给hadoop集群，等待作业完成后main方法才会结束
        job.waitForCompletion(true);
    }
}

上面创建的类是一个普通的带main方法的java类，在main方法中，对本Mr任务进行相关设置。上面代码中的设置是最小设置，很多设置采用的是默认值。下面对上面代码进行一一的解释。

首先通过Job.getInstance()创建一个Job对象，该对象用于进行作业信息的设置，用于控制整个作业的运行。

要想作业在集群中运行，需要把代码打包成一个Jar包文件（mr框架会在整个集群上发布整个Jar文件），我们需要在代码中通过setJarByClass方法传递一个类，这样mr框架就能根据这个类来查找到相关的jar文件。

然后调用setMapperClass和setReducerClass方法指定本作业执行所需要的Mapper类和Reducer类。

还需要调用setOutputKeyClass和setOutputValueClass指定作业最终（即reduce操作）输出的key-value键值对的数据类型，这个要与Reducer实现类代码中指定的Reducer类中的泛型参数保持一致。需要注意的是，如果map操作的输出类型与最终的输出类型不一致，则需要显示的单独设置map的输出类型，可调用Job类的setMapOutputKeyClass和setMapOutputValueClass方法进行设置，因为我们这个例子中map的输出类型和reduce的输出类型一致，所以不用单独再设置map的输出类型。

在我们这个例子，任务的输入来自文件，输出也是写入文件。所以需要设置输入路径和输出路径，输入路径通过调用FileInputFormat类的静态方法setInputPaths来设置，可以是一个文件名，也可以是一个目录，如果是一个目录，则该目录下的所有文件都会被作为输入文件处理；输出路径通过调用FileOutputFormat类的静态方法setOutputPath来设置，需要注意的是，mr框架要求在作业运行前该输出目录是不存在的，如果存在，程序会报错。

最后调用waitForCompletion方法来提交作业，参数传入true表示等待作业完成方法才返回，这样整个作业完成后main方法才会结束。

五、运行测试

写好mr程序后，正常情况下我们是要把代码打成jar包，然后提交到hadoop集群环境下去运行。但如果我们每次都在集群环境下去验证代码的正确性，就比较复杂，一来集群环境准备比较麻烦，二来执行比较耗时，三来调试、查找问题比较麻烦。因此，我们最好先能在本地进行验证，先保证代码逻辑是正确的。

好在mr程序可以在本地执行，我们可以在本地准备一个小型数据进行测试，以验证代码是否有问题。当确保没有代码的问题后，我们再拿到集群上去验证性能等问题。

要想mr程序在本地运行，我们需要设置Mr程序不使用hdfs文件系统上的文件（而使用本地文件），同时不使用yarn进行资源调度。我们需要在代码里进行参数的设置，如：

Configuration conf= **new** Configuration();
conf.set("fs.defaultFS","file:///");
conf.set("mapreduce.framework.name","local");
Job job = Job.getInstance(conf);

上面的代码是前面例子中的代码，"fs.defaultFS"参数代表使用哪个文件系统，这里设置值为"file:///"表示使用本地文件系统；"mapreduce.framework.name"参数代表执行Mr程序的方式，这里设置值为"local"表示使用本地的方式，不使用yarn。如果不在代码中进行设置，这些参数的值是取的当前环境下的hadoop配置文件中设置的值，具体可参考《Hadoop运行环境搭建》中的配置文件设置介绍。这样我们需要创建一个Configuration 对象，进行相关参数设置后，并传给创建Job对象的getInstance静态方法。

另外需要注意的是，需要把前面章节中例子代码中的输入、输出路径改为实际的本地路径。

一般情况下，我们会在IDE工具中（如eclipse，intellij）中进行代码的开发，为了编译通过，需要引入所依赖的相应的jar包，这有两种方式，一是利用maven的pom文件自动引入，二是直接在IDE中显示的设置。要想编译没问题，只需要引入hadoop-common-2.7.6.jar（位于安装目录的share\hadoop\common目录下）和hadoop-mapreduce-client-core-2.7.6.jar（位于安装目录的share\hadoop\mapreduce目录下）。

上面引入的两个Jar包只能让编译通过。但如果要执行mr程序，需要依赖更多Jar包。最简单的运行方式是，将Mr程序编译后的class打成jar包，然后利用hadoop jar命令来执行，该命令会自动引入执行Mr程序需要的jar包。

假设上面的wordcount例子的代码已经打成Jar包，jar包名为wordcount.jar。进入命令行界面，当前目录为wordcount.jar所在的目录，然后执行：

hadoop jar wordcount.jar com.mrexample.wordcount.CountMain

会有很多信息在控制台上输出，如果执行成功，我们打开上面代码中设置的输出目录，会发现生成了很多文件。其中结果位于一个或多个part-r-xxxxx文件中,其中xxxxx是一串数字编号，从00000开始。打开part-r-xxxxx文件，可以检查输出结果是否与预期一致，从而判断代码逻辑是否正确。

六、其它案例

通过上面的统计单词重复次数的例子，我们可以看出，编写mr程序的关键是根据需求，依照mr模型的要求，设计出相应的map函数和reduce函数。我们再来看一个更简单的例子，加深下理解。

假设有很多文本文件，文件中的各行文本数据有重复的，我们需要将这些文件中重复的行（包括不同文件中的重复行）去除掉。这个如果采用mr来实现，就非常简单了。

首先我们考虑map函数怎么写？因为对于文本文件,mr框架默认处理后传给map的key-value键值对的key是行首字母在文件中的位置，value是该行的文本。所以我们的map只需将行文本作为Key输出，对应的vaule没有作用，可以是一个空串。代码如：

public class RemoveMap extends Mapper<LongWritable, Text, Text, Text> {
    private Text tag = new Text();
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        context.write(value, tag);
    }
}

这样map输出的key-value数据经过mr框架shuffle操作后，输出的数据的key就是不重复的行数据了（即没有重复的行了）。这样我们的reduce函数只需将传入的weikey输出即可，代码如：

public class RemoveReduce extends Reducer<Text, Text, Text, Text>{
    private Text tag = new Text();
protected void reduce(Text key, Iterable<Text> value, Context context)
            throws IOException, InterruptedException {
        context.write(key, tag);
    }
}

可以看出，mr程序实际上就是将输入转为key-value格式的数据流，分别经过map函数和reduce函数处理后，最后输出key-value格式的数据。这点与函数式编程的中的高阶函数map和reduce的概念非常类似，map是将一个数据集合转换为另一个数据集合，reduce是对一个数据集合进行聚合等相应的操作。

前面的例子，mr处理的数据来自文本文件，最后生成的结果也到文本文件中。这时是Mr框架采用默认的方式来读取数据和写入数据的。在实际的场景中，我们的数据可能不是来自于文件，输出也不一定写入文件中。或者即使是文件，也可能是二进制的，不是文本文件。

其实MR可以处理很多不同类型的数据格式。这个我们在后续的文章中再介绍。

posted @ 2020-06-11 17:15 年少有为AAA 阅读(369) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部