MapReduce 离线计算框架


分而治之

  • input > map > shuffle > reduce > output
  • 分布式并行的计算框架
将计算过程分为两个阶段,Map和Reduce
  • Map阶段并行处理输入数据
  • Reduce阶段对Map结果进行汇总
Shuffle链接Map和Reduce两个阶段
  • Map Task将数据写入到本地磁盘
  • Reduce Task从每个Map Task上读取一份数据
仅适合离线批处理
  • 具有很好的容错性和扩展性
  • 适合简单的批处理任务
缺点明显
  • 启动开销大、过多使用磁盘导致效率低下等

MapReduce on YARN


YARN