【hadoop】Hadoop编程实例之MapReduce
前言
首先让我们来重温一下 hadoop 的四大组件:
HDFS:分布式存储系统
MapReduce:分布式计算系统
YARN: hadoop 的资源调度系统
Common: 以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等
MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太清楚,同时MapReduce1.0和MapReduce2.0在网上有很多人混淆。
MapReduce1.0运行模型
input ->splitting->Mapping->Shuffing->Reducing->final result
第1步input
第2步splitting
第3步Mappin
第4步Shuffing
第5步Reducing
参考:https://www.jianshu.com/p/461f86936972
mapreduce入门:MapReduce(一) mapreduce基础入门