上一页 1 2 3 4 5 6 7 8 ··· 67 下一页
摘要: 一、需求分析 1、需求 按照流量降序排序 2、分析 a、原文件的总流量是value,排序是按照key进行排序的,因此需要把 value -> key b、自定义Hadoop序列化类,(需要有排序功能) 实现 WritableComparable 二、代码 1、自定义Hadoop序列化,实现Writa 阅读全文
posted @ 2020-09-07 09:41 市丸银 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1、MapTask和ReduceTask均会对数据按照key进行排序,这是Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要,默认排序是按照字典顺序排序,方法为:快速排序 2、MapTask,在什么时候排序? a、环形内存缓冲区,快速排序,溢出到磁盘 b、所有数据 阅读全文
posted @ 2020-09-07 08:57 市丸银 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 默认分区:HashPartition 影响因素:key.hashcode()、NumReducerTask 一、基础 1、目的 Reducer处理的结果按不同的条件,存储在不同的文件中 2、语法 a、自定义分区,继承Partitioner b、分区在mapper后reducer前,因此数据类型和ma 阅读全文
posted @ 2020-09-05 10:20 市丸银 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 一、概念 Map方法处理之后,Reduce方法处理之前,数据处理过程过程被称为shuffle,又称洗牌 待续 阅读全文
posted @ 2020-09-04 22:57 市丸银 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 无论是HDFS还是MapReduce在处理小文件时,都要消耗大量内存,效率低 一、回顾 1、HDFS har,对外对应一个NameNode,对内对应多个文件 2、MapReduce CombineTextInputFormat,分为虚拟存储过程和切片过程 虚拟存储过程和切片过程都要和最大值做比较 改 阅读全文
posted @ 2020-09-04 17:45 市丸银 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 一、需求分析 1、文件 hadoop is ok hadoop not ok java is fun php is ok php is pretty python is all go is new 2、需求 对上述文件中每个单词出现的数量进行统计,2行数据一个切片 3、分析 与传统的WordCoun 阅读全文
posted @ 2020-09-04 11:19 市丸银 阅读(272) 评论(1) 推荐(0) 编辑
摘要: 一、需求分析 1、文件 hadoop is ok hadoop not ok java is fun php is ok php is pretty python is all 2、需求 统计输入文件中每一行的第一个单词相同的行数 3、分析 每一行第一个单词的数量,只能用KeyValueTextIn 阅读全文
posted @ 2020-09-04 10:49 市丸银 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 一、TextInputFormat 1、TextInputFormat是默认的FileInputFormat的实现类。2、按行读取每条记录。3、键:存储该行在整个文件中起始字节偏移量,LongwWritable类型4、值:这行的内容,不包含任何行终止符(换行符和回车符),Text类型 注意:键的值: 阅读全文
posted @ 2020-09-03 22:40 市丸银 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 一、核心代码(依托于自定义的WordCount) 1、位置 在设置输入和输出路径前 2、代码 // 设置 job.setInputFormatClass(CombineTextInputFormat.class); CombineTextInputFormat.setMaxInputSplitSiz 阅读全文
posted @ 2020-09-03 22:10 市丸银 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 一、FileInputFormat切片机制 1、简单的按照文件长度进行切片 2、切片大小,默认值为BlockSize 3、切片时不考虑整体数据,而是逐个针对单一文件切片 二、CombineTextInputFormat切片机制 A、产生原因: 处理大量单独的小文件,每个小文件都会产生一个MapTas 阅读全文
posted @ 2020-09-03 21:36 市丸银 阅读(306) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 67 下一页