分布化

前面展示了 MapReduce 针对小量输入的工作方式，

现在是时候整体了解系统并进入大数据流作为输入了。

为简单起见，我们的例子到目前为止都使用本地文件系统中的文件。

然而，为了分布化，我们需要把数据存储在分布式文件系统中，典型的如 HDFS ，

以允许 Hadoop 把 MapReduce 的计算移到承载部分数据的各台机器。

下面我们就来看看这是如何工作的。

数据流

首先是一些术语的说明。

MapReduce 作业（job）是客户端执行的单位：它包括输入数据、 MapReduce 程序和配置信息。

Hadoop 通过把 作业分成若干个小任务（task）来工作，其包括 两种类型的任务： map 任务和 reduce 任务。

有两种类型的节点控制着 作业执行过程： jobtracker 和多个 tasktracker 。

jobtracker 通过调度任务在 tasktracker 上运行，来协调所有运行在系统上的作业。

Tasktracker 运行任务的同时，把进度报告传送到 jobtracker， jobtracker 则记录着每项任务的整体进展情况。

如果其中一个任务失败， jobtracker 可以重新调度任务到另外一个 tasktracker .

Hadoop 把 输入数据 划分成 等长的小数据 发送到 MapReduce , 称为 输入分片（input split）或分片。

Hadoop 为每个分片( split ) 创建一个map 任务， 由它来运行用户自定义的 map 函数来分析每个分片中的记录。

拥有许多分片 就意味着 处理每个分片的时间 与 处理整个输入的时间 相比 是比较小的。

因此，如果我们并行处理每个分片，且分片是小块的数据，那么处理过程将有一个更好的负载平衡，

因为更快的计算机将能够比一台速度较慢的机器在作业过程中处理完比例更多的数据分片。

即使是相同的机器，没有处理的或其他同时运行的作业也会使负载平衡得以实现，

并且在分片变得更细时，负载平衡质量也会更佳。

另一方面，如果分片太小，那么管理分片的总时间和 map 任务创建的总时间将决定作业的执行的总时间。

对于大多数作业，一个理想的分片大小往往是一个 HDFS 块的大小，默认是 64 MB，

虽然这可以根据集群进行调整（对于所有新建文件）或在新建每个文件时具体进行指定。

map 任务的执行节点和输入数据的存储节点是同一个节点，

Hadoop 的性能达到最佳。这就是所谓的 data locality optimization ( 数据局部性优化 )。

现在我们应该清楚为什么最佳分片的大小与块大小相同： 它是最大的可保证存储在单个节点上的数据量。

如果分区跨越两个块，那么对于任何一个 HDFS 节点而言，基本不可能同时存储这两数据块，

因此 此分布的某部分必须通过网络传输到节点，这 与使用本地数据运行 map 任务相比，显然效率更低。

map 任务把输出写入本地硬盘，而不是 HDFS。 这是为什么？

因为 map 的输出作为中间输出：而中间输出则被 reduce 任务处理后产生最终的输出，一旦作业完成， map 的输出就可以删除了。

因此，把它及其副本存储在 HDFS 中，难免有些小题大做。

如果该节点上运行的 map 任务在 map 输出给 reduce 任务处理之前崩溃，

那么 Hadoop 将在另一个i 节点上重新运行 map 任务以再次创建 map 的输出。

reduce 任务并不具备数据本地读取的优势—— 一个单一的 reduce 任务的输入往往来自于所有 mapper 的输出。

在本例中，我们有一个单独的 reduce 任务，其输入是由所有 map 任务的输出组成的。

因此，有序 map 的输出必须通过网络传输到 reduce 任务运行的节点，并在那里进行合并，然后传递到用户定义的 reduce 函数中。

为增加其可靠性， reduce 的输出通常存储在 HDFS 中。

如第3章所述，对于每个 reduce 输出的 HDDFS 块，第一个副本存储在本地节点上，其他副本存储在其他机架节点中。

因此，编写reduce 的输出确实十分占用网络带宽，但是只是和正常的 HDFS 写管线的消耗一样。

一个单一的 reduce 任务的整个数据流如图 2-2 所示。 虚线框 表示节点，虚线箭头 表示 数据传输到一个节点上，

而 实线的箭头 表示节点之间的数据传输。

reduce 任务的数目 并不是由 输入的大小 来决定的，而是 单独具体指定的。

在第 7 章的 7.1 节中，将介绍 如何为一个给定的作业选择reduce 任务数量。

如果有多个 reducer, map 任务会对其输出进行分区，为 每个 reduce 任务 创建一个分区（partition）.

每个分区 包含许多键（及其关联的值），但 每个键的记录都在同一分区中。

分区可以通过用户定义的 partitioner 来控制，但通常是默认的分区工具，

它使用的是 hash 函数来形成的 “木桶” 键/值，这种方法效率很高。

一般情况下， 多个 reduce 任务 的数据流如图 2-3 所示。

此图 清楚地表明了 map 和 reduce 任务之间的数据流为什么要称为 "shuffle"(洗牌)，因为 每个 reduce 任务的输入都由许多 map 任务来提供。

shuffle 其实比此图所显示的更复杂，并且调整它可能对作业的执行时间产生很大的影响，详见 6.4 节。

最后，也有可能不存在reduce 任务，不需要 shuffle 的时候，这样的情况是可能的，

因为处理可以并行进行（第 7章有几个例子讨论了这个问题）。

在这种情况下，唯一的非本地节点数据传输是当 map 任务写入到 HDFS 中（见图 2-4）.

集群的　　可用带宽限制了 MapReduce 作业的数量，因此 map 和 reduce 任务之间数据传出的代价是最小的。

Hadoop 允许用户声明一个 combiner , 运行在 map 的输出上 —— 该函数的输出作为 reduce 函数的输入。

由于 combiner 是一个 优化方法，所以 Hadoop 不保证对于某个 map 的输出记录是否调用该方法，调用该方法多少次。

换言之， 不调用该方法或者 调用该方法多次， reducer 的输出结果都一样。

combiner 的规则限制这可用的函数类型。我们将用一个例子来巧妙地加以说明。

以前面的最高气温例子为例， 1950 年的读数有两个 map 处理（因为它们在不同的分片中）。

假设第一个 map 的输出如下：

..........

combiner 并不能取代 reduce 函数。（为什么呢？ reduce 函数仍然需要处理来自不同的 map 给出的相同记录。）

但它可以帮助减少 map 和 reduce 之间的数据传输量，而正因为此，是否在 MapReduce 作业中使用 combiner 是需要慎重考虑的。

运行分布式 MapReduce 作业

同一个程序将在一个完整的数据集中直接运行而不做更改。这是 MapReduce 的优势之一：它扩充数据大小和硬件规模。

Hadoop流

Hadoop 提供了一个 API 来 运行 MapReduce，并允许你用 除 java 以外的语言 来编写自己的 map 和 reduce 函数。

Hadoop 流 使用 Unit 标准流 作为 Hadoop 和 程序之间 的接口，

所以可以使用任何语言，只要 编写的 MapReduce 程序 能够 读取标准输入，并写入到标准输出。

流适用于文字处理（尽管 0.21.0 版本也可以处理二进制流），在文本模式下使用时，它有一个面向行的数据视图。

map 的 输入数据 把 标准输入流 传输到 map 函数，其中 是一行一行的传输，然后 再把行写入标准输出。

一个 map 输出的键/值 对是 以单一的制表符 分隔的行来写入的。

reduce 函数的输入具有相同的格式——通过制表符来分隔的键/值对 —— 传输标准输入流。

reduce 函数从标准输入流读入行，然后为保证结果的有序性用键来排序，最后将结果写入标准输出。

posted @ 2016-04-10 18:33 行者无疆Duffy 阅读(315) 评论(0) 编辑收藏举报

刷新页面返回顶部

行者无疆Duffy

分布化

公告