摘要: 一、概念 Map方法处理之后,Reduce方法处理之前,数据处理过程过程被称为shuffle,又称洗牌 待续 阅读全文
posted @ 2020-09-04 22:57 市丸银 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 无论是HDFS还是MapReduce在处理小文件时,都要消耗大量内存,效率低 一、回顾 1、HDFS har,对外对应一个NameNode,对内对应多个文件 2、MapReduce CombineTextInputFormat,分为虚拟存储过程和切片过程 虚拟存储过程和切片过程都要和最大值做比较 改 阅读全文
posted @ 2020-09-04 17:45 市丸银 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 一、需求分析 1、文件 hadoop is ok hadoop not ok java is fun php is ok php is pretty python is all go is new 2、需求 对上述文件中每个单词出现的数量进行统计,2行数据一个切片 3、分析 与传统的WordCoun 阅读全文
posted @ 2020-09-04 11:19 市丸银 阅读(272) 评论(1) 推荐(0) 编辑
摘要: 一、需求分析 1、文件 hadoop is ok hadoop not ok java is fun php is ok php is pretty python is all 2、需求 统计输入文件中每一行的第一个单词相同的行数 3、分析 每一行第一个单词的数量,只能用KeyValueTextIn 阅读全文
posted @ 2020-09-04 10:49 市丸银 阅读(221) 评论(0) 推荐(0) 编辑