RDBS:关系型数据库
MapReduce:非关系型数据管理技术的代表
前者要求高度的一致性和正确性。
挑战: 数据量的增大;数据深度分析(复杂分析,而不是简单生成报表 如对现有数据获取知识加以利用。)
杂乱的数据:非结构化数据,半结构化数据。
MapReduce技术框架:分布式文件系统,并行编程模型,并行执行引擎。
分布式文件系统:
run in 大规模集群,使用廉价机器,数据以键值对进行存储。文件系统采用元数据集中管理,
数据块分散存储,通过数据复制(至少三个备份)实现高度容错。采用大块存储(64或128MB为一块)。
MapReduce并行编程模型:
把计算过程分为Map,Reduce阶段。Map函数处理键值对,产生中间键值对,Reduce函数用来合并具有相同的Key值
的中间键值对,输出最终结果。