尚硅谷-MR执行流程浅析

二、MR的核心编程思想

1.概念

Job(作业) :  一个MR程序称为一个Job
MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程为 MRAppMaster。
	负责Job中执行状态的监控,容错,和RM申请资源,提交Task等!
				
Task(任务):  Task是一个进程!负责某项计算!

Map(Map阶段): Map是MapReduce程序运行的第一个阶段!
		Map阶段的目的是将输入的数据,进行切分。将一个大数据,切分为若干小部分!
		切分后,每个部分称为1片(split),每片数据会交给一个Task(进程)进行计算!
					
		Task负责是Map阶段程序的计算,称为MapTask!
					
		在一个MR程序的Map阶段,会启动N(取决于切片数)个MapTask。每个MapTask是并行运行!
					
Reduce(Reduce阶段): Reduce是MapReduce程序运行的第二个阶段(最后一个阶段)!
		Reduce阶段的目的是将Map阶段,每个MapTask计算后的结果进行合并汇总!得到最终结果!
		Reduce阶段是可选的!
							
		Task负责是Reduce阶段程序的计算,称为ReduceTask!
		一个Job可以通过设置,启动N个ReduceTask,这些ReduceTask也是并行运行!
		每个ReduceTask最终都会产生一个结果!

2.MapReduce中常用的组件

①Mapper: map阶段核心的处理逻辑

②Reducer: reduce阶段核心的处理逻辑

③InputFormat: 输入格式

MR程序必须指定一个输入目录,一个输出目录!
InputFormat代表输入目录中文件的格式!
如果是普通文件,可以使用FileInputFormat.
如果是SequeceFile(hadoop提供的一种文件格式),可以使用SequnceFileInputFormat.
如果处理的数据在数据库中,需要使用DBInputFormat

④RecordReader: 记录读取器

RecordReader负责从输入格式中,读取数据,读取后封装为一组记录(k-v)!

⑤OutPutFormat: 输出格式

OutPutFormat代表MR处理后的结果,要以什么样的文件格式写出!
将结果写出到一个普通文件中,可以使用FileOutputFormat!
将结果写出到数据库中,可以使用DBOutPutFormat!
将结果写出到SequeceFile中,可以使用SequnceFileOutputFormat

⑥RecordWriter: 记录写出器

RecordWriter将处理的结果以什么样的格式,写出到输出文件中!

在MR中数据的流程:

①InputFormat调用RecordReader,从输入目录的文件中,读取一组数据,封装为keyin-valuein对象
②将封装好的key-value,交给Mapper.map()------>将处理的结果写出 keyout-valueout
③ReduceTask启动Reducer,使用Reducer.reduce()处理Mapper写出的keyout-valueout,
④OutPutFormat调用RecordWriter,将Reducer处理后的keyout-valueout写出到文件

⑦Partitioner: 分区器

分区器,负责在Mapper将数据写出时,将keyout-valueout,为每组keyout-valueout打上标记,进行分区!
目的: 一个ReduceTask只会处理一个分区的数据!

三、MapReduce的运行流程概述

需求: 统计/hello目录中每个文件的单词数量

a-p开头的单词放入到一个结果文件中,
q-z开头的单词放入到一个结果文件中。

例如:

/hello/a.txt   200M
hello,hi,hadoop
hive,hadoop,hive,
zoo,spark,wow
zoo,spark,wow
...
/hello/b.txt    100m
hello,hi,hadoop
zoo,spark,wow
...

1.Map阶段(运行MapTask,将一个大的任务切分为若干小任务,处理输出阶段性的结果)
①切片(切分数据)

/hello/a.txt   200M
/hello/b.txt    100m

默认的切分策略是以文件为单位,以文件的块大小(128M)为片大小进行切片!

split0:/hello/a.txt,0-128M
split1: /hello/a.txt,128M-200M
split2: /hello/b.txt,0M-100M

②运行MapTask(进程),每个MapTask负责一片数据

split0:/hello/a.txt,0-128M--------MapTask1
split1: /hello/a.txt,128M-200M--------MapTask2
split2: /hello/b.txt,0M-100M--------MapTask3

③读取数据阶段

在MR中,所有的数据必须封装为key-value
MapTask1,2,3都会初始化一个InputFormat(默认TextInputFormat),每个InputFormat对象负责创建一个RecordReader(LineRecordReader)对象,
RecordReader负责从每个切片的数据中读取数据,封装为key-value.

LineRecordReader: 将文件中的每一行封装为一个key(offset)-value(当前行的内容)

举例:

hello,hi,hadoop----->(0,hello,hi,hadoop)
hive,hadoop,hive----->(20,hive,hadoop,hive)
zoo,spark,wow----->(30,zoo,spark,wow)
zoo,spark,wow----->(40,zoo,spark,wow)

④进入Mapper的map()阶段

map()是Map阶段的核心处理逻辑! 单词统计! map()会循环调用,对输入的每个Key-value都进行处理!
输入:(0,hello,hi,hadoop)
输出:(hello,1),(hi,1),(hadoop,1)  

输入:(20,hive,hadoop,hive)
输出:(hive,1),(hadoop,1),(hive,1)  

输入:(30,zoo,spark,wow)
输出:(zoo,1),(spark,1),(wow,1)  

输入:(40,zoo,spark,wow)
输出:(zoo,1),(spark,1),(wow,1) 

⑤目前,我们需要启动两个ReduceTask,生成两个结果文件,需要将MapTask输出的记录进行分区(分组,分类)
在Mapper输出后,调用Partitioner,对Mapper输出的key-value进行分区,分区后也会排序(默认字典顺序排序)
分区规则:

a-p开头的单词放入到一个区
q-z开头的单词放入到另一个区

MapTask1:

0号区:  (hadoop,1),(hadoop,1),(hello,1),(hi,1),(hive,1),(hive,1)
1号区:  (spark,1),(spark,1),(wow,1) ,(wow,1),(zoo,1)(zoo,1)

MapTask2:

0号区:  。。。
1号区: ...

MapTask3:

0号区:   (hadoop,1),(hello,1),(hi,1),
1号区: (spark,1),(wow,1),(zoo,1)

2.Reduce阶段

①copy

ReduceTask启动后,会启动shuffle线程,从MapTask中拷贝相应分区的数据!

ReduceTask1: 只负责0号区

将三个MapTask,生成的0号区数据全部拷贝到ReduceTask所在的机器!
(hadoop,1),(hadoop,1),(hello,1),(hi,1),(hive,1),(hive,1)
 (hadoop,1),(hello,1),(hi,1),

ReduceTask2: 只负责1号区

将三个MapTask,生成的1号区数据全部拷贝到ReduceTask所在的机器!
(spark,1),(spark,1),(wow,1) ,(wow,1),(zoo,1)(zoo,1)
(spark,1),(wow,1),(zoo,1)

②sort

ReduceTask1:	只负责0号区进行排序:
	(hadoop,1),(hadoop,1),(hadoop,1),(hello,1),(hello,1),(hi,1),(hi,1),(hive,1),(hive,1)
ReduceTask2: 只负责1号区进行排序:
	(spark,1),(spark,1),(spark,1),(wow,1) ,(wow,1),(wow,1),(zoo,1),(zoo,1)(zoo,1)

③reduce

ReduceTask1---->Reducer----->reduce(一次读入一组数据)

何为一组数据: key相同的为一组数据
	输入: (hadoop,1),(hadoop,1),(hadoop,1)
	输出:   (hadoop,3)

	输入: (hello,1),(hello,1)
	输出:   (hello,2)
	
	输入: (hi,1),(hi,1)
	输出:  (hi,2)
	
	输入:(hive,1),(hive,1)
	输出: (hive,2)
	
ReduceTask2---->Reducer----->reduce(一次读入一组数据)


	输入: (spark,1),(spark,1),(spark,1)
	输出:   (spark,3)
	
	输入: (wow,1) ,(wow,1),(wow,1)
	输出:   (wow,3)

	输入:(zoo,1),(zoo,1)(zoo,1)
	输出:   (zoo,3)

④调用OutPutFormat中的RecordWriter将Reducer输出的记录写出

ReduceTask1---->OutPutFormat(默认TextOutPutFormat)------>RecordWriter(LineRecoreWriter)
LineRecoreWriter将一个key-value以一行写出,key和alue之间使用\t分割
在输出目录中,生成文件part-r-0000
hadoop	3
hello	2
hi	2
hive	2
	
ReduceTask2---->OutPutFormat(默认TextOutPutFormat)------>RecordWrite(LineRecoreWriter)
LineRecoreWriter将一个key-value以一行写出,key和alue之间使用\t分割
在输出目录中,生成文件part-r-0001
spark	3
wow	3
zoo	3

三、MR总结

Map阶段(MapTask):  切片(Split)-----读取数据(Read)-------交给Mapper处理(Map)------分区和排序(sort)
Reduce阶段(ReduceTask):  拷贝数据(copy)------排序(sort)-----合并(reduce)-----写出(write)
posted @ 2020-07-22 12:03  Loading~  阅读(1027)  评论(0编辑  收藏  举报