摘要: 其实我们可以从word count这个实例来理解MapReduce。 MapReduce大体上分为六个步骤: input, split, map, shuffle, reduce, output。 细节描述如下: 输入(input):如给定一个文档, 包含如下四行: Hello Java Hello 阅读全文
posted @ 2019-12-26 15:24 jimshi 阅读(718) 评论(0) 推荐(0) 编辑
摘要: 一、 两者的各方面比较 二、Spark相对Hadoop的优越性 三、三大分布式计算系统 Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎 Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算) 阅读全文
posted @ 2019-12-26 14:40 jimshi 阅读(5067) 评论(0) 推荐(0) 编辑
摘要: Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.这 阅读全文
posted @ 2019-12-26 13:55 jimshi 阅读(8000) 评论(0) 推荐(0) 编辑
摘要: HADOOP 1.0存在的问题HDFS1.0存在的问题: Namenode单点故障:集群的文件都是以“块(block)”的形式存储,并且为了容错,每个block有多个副本。namenode需要记录整个集群所有block及其副本的元数据信息(fsimage:文件目录结构,block和文件的映射关系等) 阅读全文
posted @ 2019-12-26 13:40 jimshi 阅读(1067) 评论(0) 推荐(0) 编辑
摘要: 场景:比如有海量的文本文件,如订单,页面点击事件的记录,量特别大,单机版很难搞定。 怎样解决海量数据的计算? 求和: 1 + 5 +7 + 3 +4 +9 +3 + 5 +6 MapReduce产生背景如果让你统计日志里面的出现的某个URL的总次数,让你自己去写个单机版的程序,写个逻辑:无非就是读这 阅读全文
posted @ 2019-12-26 09:58 jimshi 阅读(205) 评论(0) 推荐(0) 编辑