2019年8月29日
摘要: Yarn的概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,是 Hadoop2.x 版本中的一个新特性。 Yarn中的角色 Yarn也是主从结构,主要由ResourceManager、NodeManager、 ApplicationMaster和C 阅读全文
posted @ 2019-08-29 16:26 灰色...天空 阅读(613) 评论(0) 推荐(0) 编辑
摘要: MapReduce案例 1.单词计数--wordcount 首先准备好文件 开始编写程序 2.计算每个人的钱数 文件1 文件2 代码编写 3.求出共同好友 准备文件 编写代码 上面的程序输出的结果 最终结果展示 4.读取JSON数据 5.分区解决数据倾斜 准备一个文件里面一个单词非常多别的很少 5. 阅读全文
posted @ 2019-08-29 15:18 灰色...天空 阅读(1038) 评论(0) 推荐(1) 编辑
摘要: MapReduce概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决 海量数据的计算问题。MR由两个阶段组成:Map和Reduce,用户只需要实现map() 和reduce()两个函数,即可实现分布式计算。这两个函数的形参是key、value对,表 示函数的输入 阅读全文
posted @ 2019-08-29 09:24 灰色...天空 阅读(195) 评论(0) 推荐(1) 编辑