摘要: MapReduce是一个分布式运算程序的编程框架,核心是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在一个Hadoop集群上,高容错,适合PB级以上的海量数据的离线处理。 MapReduce概述 MapReduce核心思想 )分布式的运算程序往往需要分成至少2个阶段。 阅读全文
posted @ 2020-02-17 17:03 Darling&GLL 阅读(201) 评论(0) 推荐(0) 编辑
摘要: HDFS(Hadoop Distributed File System) 分布式文件系统,HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.由NameNode,若干DataNode,以及Secondary NameNode组成。 阅读全文
posted @ 2020-02-17 12:05 Darling&GLL 阅读(734) 评论(0) 推荐(0) 编辑
摘要: Hadoop是一个由Apache基金会所开发的分布式基础架构,Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算,特点是:高可靠性,高扩展性,高效性,高容错性。 Hadoop与Google三篇论文 Googl 阅读全文
posted @ 2020-02-17 11:39 Darling&GLL 阅读(3657) 评论(0) 推荐(4) 编辑