摘要:
YARN是资源管理调度的机制,之前一直以来和MapReduce机制合在一起,之后才分开。正是因为YARN机制单独独立出来,才使得Hadoop框架更加具有普适性。MapReduce可以处理海量离线数据,同样如果处理实时数据,换成Spark,Storm即可,不用重新部署集群,因为资源管理调度YARN是共 阅读全文
摘要:
1. MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。2. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。 阅读全文