小记---------Hadoop的MapReduce基础知识

MapReduce是一种分布式计算模型，主要用于搜索领域，解决海量数据的计算问题

MR由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算。

两个函数的形参是key、value对，表示函数的输入信息

解释：一个文件按照块（每块给定具体值）分为多个split，每个split对应一个mapper，然后通过shuffle进行分组（把相同的key的value合并），最后交给reduce进行最终的合并计算输出为part-00000名字的文件

Mappers must compiete before Reducers can begin

map必须完成后才可开始reduces工作

每一个步骤都是通过键值对的形式输入输出。

执行步骤：

1.map任务处理

读取输入文件内容，解析成key、value对，对输入文件的每一行，解析成key,value对，每一个键值对调用一次map函数
写自己的逻辑，对输入的key、value处理，转换成新的key、value输出。
对输出的key、value进行分区。
对不同分区的数据，按照key进行排序、分组。相同key的value放到一个集合中。
（可选）分组后的数据进行归约的

2.reduce任务处理

对多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点。
对多个map任务的输出镜像合并、排序，写reduce函数自己的逻辑，对输入的key、value处理。转换成新的key、value输出。
把reduce的输出保存到文件中

自我理解：

[k1,v1] Map [k2,v2] Group [k2,{v2...}] Reduce [k3,v3]

系统自动按照一行内容分解成多个k1,v1。

在Map过程内根据自己的业务逻辑需求输出k2,v2

系统自动对k2进行分组计算输出 k2，{v2...}

在Reduce内根据业务逻辑到处k3,v3

1、Partiton的原理及使用方法（分区）

在MapReduce进行计算时，有时需要把最终输出数据分到不同的文件中，例如：按照省份划分，需要把同一省份的数据放到一个文件中，从而得到多个文件。（得到几个文件，就需要几个Reducer任务运行）也就是说Mapper任务要划分数据，对于不同的数据分配给不同的Reducer任务运行。Mapper任务划分数据的过程就称作Partition，负责实现划分数据的类称作Partitioner。

partition是分割map每个节点的结果，按照key（k2）分别映射给不同的reduce，也是可以自定义的，这里其实可以理解成归类。

原理及作用

hadoop采用的默认的派发方式时根据散列来派发的，但是实际中，这并不能很高效或者按照我们要求的去执行任务。

例：我们想要处理后得到的文件按照一定的规律进行输出，假设有两个reducer，我们想要的最终结果中part-r-00000中存储的是“h”开头的记录的结果，part-r-00001中存储其他开头的结果，这些默认的partitioner是做不到的。

默认分区源码：

1 public class HashPartitioner<K, V> extends Partitioner<K, V> {
2      /** Use {@link Object#hashCode()} to partition. */
3    public int getPartition(K key, V value, int numReduceTasks) {
4      return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
5    }
6  }