该文被密码保护。 阅读全文
posted @ 2020-07-19 23:55 秋华 阅读(263) 评论(0) 推荐(0) 编辑
摘要: 数据清洗案例实操-复杂解析版 1.需求 对Web访问日志中的各字段识别切分,去除日志中不合法的记录。根据清洗规则,输出过滤后的数据。 (1)输入数据 (2)期望输出数据 都是合法的数据 2.实现代码 (1)定义一个bean,用来记录日志数据中的各数据字段 package com.atguigu.ma 阅读全文
posted @ 2020-07-19 20:57 秋华 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 数据清洗案例实操-简单解析版 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。 1.需求 去除日志中字段长度小于等于11的日志。 (1)输入数据 (2)期望输出数据 每行字段长度都大于 阅读全文
posted @ 2020-07-19 20:49 秋华 阅读(756) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-07-19 20:36 秋华 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 1 Reduce Join Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中 阅读全文
posted @ 2020-07-19 20:33 秋华 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 1 OutputFormat接口实现类 2 自定义OutputFormat 3 自定义OutputFormat案例实操 1.需求 过滤输入的log日志,包含atguigu的网站输出到e:/atguigu.log,不包含atguigu的网站输出到e:/other.log。 (1)输入数据 (2)期望输 阅读全文
posted @ 2020-07-19 20:27 秋华 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 1.ReduceTask工作机制 ReduceTask工作机制,如图4-19所示。 图4-19 ReduceTask工作机制 (1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。 (2)Merge 阅读全文
posted @ 2020-07-19 20:15 秋华 阅读(232) 评论(0) 推荐(0) 编辑
摘要: MapTask工作机制 MapTask工作机制如图4-12所示。 图4-12 MapTask工作机制 (1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给 阅读全文
posted @ 2020-07-19 20:13 秋华 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 7 Combiner合并 (6)自定义Combiner实现步骤 (a)自定义一个Combiner继承Reducer,重写Reduce方法 public class WordcountCombiner extends Reducer<Text, IntWritable, Text,IntWritabl 阅读全文
posted @ 2020-07-19 19:57 秋华 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 4 WritableComparable排序 1.排序的分类 2.自定义排序WritableComparable (1)原理分析 bean对象做为key传输,需要实现WritableComparable接口重写compareTo方法,就可以实现排序。 @Override public int com 阅读全文
posted @ 2020-07-19 19:43 秋华 阅读(187) 评论(0) 推荐(0) 编辑