RDBS:关系型数据库

MapReduce:非关系型数据管理技术的代表

前者要求高度的一致性和正确性。

 

挑战: 数据量的增大;数据深度分析(复杂分析,而不是简单生成报表 如对现有数据获取知识加以利用。)

         杂乱的数据:非结构化数据,半结构化数据。

MapReduce技术框架:分布式文件系统,并行编程模型,并行执行引擎。

分布式文件系统:

    run in 大规模集群,使用廉价机器,数据以键值对进行存储。文件系统采用元数据集中管理,

  数据块分散存储,通过数据复制(至少三个备份)实现高度容错。采用大块存储(64或128MB为一块)。

MapReduce并行编程模型:

  把计算过程分为Map,Reduce阶段。Map函数处理键值对,产生中间键值对,Reduce函数用来合并具有相同的Key值

的中间键值对,输出最终结果。

posted on 2014-10-23 17:07  Dreaming-Dan  阅读(200)  评论(0编辑  收藏  举报