MapReduce核心概念及架构

MapReduce简介

MapReduce常用于对大规模数据集（大于1TB）的并行运算，或对大数据进行加工、挖掘和优化等处理。 MapReduce将并行计算过程高度抽象到了两个函数map和reduce中，程序员只需负责map和reduce函数的编写工作，而并行程序中的其它复杂问题（如分布式存储、工作调度、负载均衡、容错处理等）均可由MapReduce框架代为处理，程序员完全不用操心。
MapReduce技术特征：
 横向扩展，而非纵向扩展
 失效被认为是常态
 将处理向数据迁移
 顺序处理数据
 隐藏系统层细节
 平滑无缝的可扩展性