S++

千线一眼

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

统计

随笔 - 97
文章 - 0
评论 - 0
阅读 - 14402

公告

昵称： S++
园龄： 5年3个月
粉丝： 3
关注： 0

随笔分类

随笔档案

阅读排行榜

hadoop入门(14)：MapReduce

Map阶段执行过程

第一阶段：
把输入目录下的文件按照一定标准逐个进行逻辑切片，形成切片规划。
默认切片大小和块的大小相同128M，每一个切片由一个MapTask处理。
第二阶段：
对切片数据按照一定规则读取解析返回<key,value>对。
默认按行读取数据。key是每一行起始位置的偏移量，value是本行的文本内容。
第三阶段：
调用Mapper类中的map方法。每读取出一个<key,value>对，调用一次map方法。
第四阶段：
按照一定规则对Map输出的键值对进行分区partition。
默认不分区，因为只有一个reducetask，分区的数量就是reducetask运行的数量。
第五阶段：
Map输出数据写入内存缓存区，达到比例溢出到磁盘上。溢出spill的时候对键key进行排序sort。默认根据key字典序排序。
第六阶段：
对所有的溢出文件进行最终的merge合并，成为一个文件。

Reduce阶段执行过程

第一阶段：
ReduceTask会主动复制拉取属于自己要处理的数据。
第二阶段：
把拉取的数据，全部进行合并merge，即把分散的数据合并成一个大的数据。再对合并后的数据进行排序。
第三阶段：
对排序后的键值对调用reduce方法。键相等的键值对调用一次reduce方法。最后把这些输出的键值对写入HDFS文件中。

Shuffle洗牌机制

在MapReduce中Shuffle并不是将数据洗乱，而是将数据整理成有一定规则的数据，方便reduce端接收。

shuffle这个过程在 Map产生输出数据开始到Reduce取得数据作为输出之前 这个阶段。

shuffle频繁的涉及到内存磁盘之间的反复，这就是MapReduce相比SparkFlink计算慢的原因。

posted on 2022-04-18 19:50 S++ 阅读(32) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· hadoop入门(12)：hdfs的读写流程

· hadoop入门(5)：了解hadoop

· HadoopMapReduce 的 Shuffle 阶段

· 图文详解MapReduce工作机制

· Hadoop（十八）MapReduce Shuffle机制

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 提示词工程——AI应用必不可少的技术
· 地球OL攻略 —— 某应届生求职总结
· 字符编码：从基础到乱码解决
· SpringCloud带你走进微服务的世界