2018年12月12日

Hadoop(20)-MapReduce框架原理-OutputFormat

摘要: 1.outputFormat接口实现类 2.自定义outputFormat 步骤: 1). 定义一个类继承FileOutputFormat 2). 定义一个类继承RecordWrite,重写write方法 3. 案例 有一个log文件,将包含nty的输出到nty.log文件,其他的输出到other. 阅读全文

posted @ 2018-12-12 19:45 nt杨 阅读(178) 评论(0) 推荐(0) 编辑

Hadoop(19)-MapReduce框架原理-Combiner合并

摘要: 1. Combiner概述 2. 自定义Combiner实现步骤 1). 定义一个Combiner继承Reducer,重写reduce方法 2). 在Driver类中添加设置 效果 阅读全文

posted @ 2018-12-12 19:18 nt杨 阅读(194) 评论(0) 推荐(0) 编辑

Hadoop(18)-MapReduce框架原理-WritableComparable排序和GroupingComparator分组

摘要: 1.排序概述 2.排序分类 3.WritableComparable案例 这个文件,是大数据-Hadoop生态(12)-Hadoop序列化和源码追踪的输出文件,可以看到,文件根据key,也就是手机号进行了字典排序 字段含义分别为手机号,上行流量,下行流量,总流量 需求是根据总流量进行排序 Bean对 阅读全文

posted @ 2018-12-12 19:06 nt杨 阅读(783) 评论(0) 推荐(0) 编辑

2018年12月11日

Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区

摘要: MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计算出MapTask的数量 (以一个MapTask为例) 5.Maptask调用inputFormat 阅读全文

posted @ 2018-12-11 19:42 nt杨 阅读(533) 评论(0) 推荐(0) 编辑

Hadoop(16)-MapReduce框架原理-自定义FileInputFormat

摘要: 1. 需求 将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value 三个小文件 one.txt two.t 阅读全文

posted @ 2018-12-11 14:02 nt杨 阅读(227) 评论(0) 推荐(0) 编辑

Hadoop(15)-MapReduce框架原理-FileInputFormat的实现类

摘要: 1. TextInputFormat 2.KeyValueTextInputFormat 3. NLineInputFormat 阅读全文

posted @ 2018-12-11 08:53 nt杨 阅读(151) 评论(0) 推荐(0) 编辑

2018年12月10日

Hadoop(14)-MapReduce框架原理-切片机制

摘要: 1.FileInputFormat切片机制 切片机制 比如一个文件夹下有5个小文件,切片时会切5个片,而不是一个片 案例分析 2.FileInputFormat切片大小的参数配置 源码中计算切片大小的公式 切片大小设置 获取切片大小API 3. CombineTextInputFormat切片机制 阅读全文

posted @ 2018-12-10 22:29 nt杨 阅读(430) 评论(0) 推荐(0) 编辑

Hadoop(13)-MapReduce框架原理--Job提交源码和切片源码解析

摘要: 1.MapReduce的数据流 1) Input -> Mapper阶段 这一阶段的主要分工就是将文件切片和把文件转成K,V对 输入源是一个文件,经过InputFormat之后,到了Mapper就成了K,V对,以上一章的流量案例来说,经过InputFormat之后,变成了手机号为key,这一行数据为 阅读全文

posted @ 2018-12-10 20:13 nt杨 阅读(234) 评论(0) 推荐(0) 编辑

Hadoop(12)-MapReduce框架原理-Hadoop序列化和源码追踪

摘要: 1.什么是序列化 2.为什么要序列化 3.为什么不用Java的序列化 4.自定义bean对象实现序列化接口(Writable) 在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。 具体实现bean对象序列化步骤如下7 阅读全文

posted @ 2018-12-10 18:41 nt杨 阅读(420) 评论(0) 推荐(0) 编辑

2018年12月9日

Hadoop(11)-MapReduce概述和简单实操

摘要: 1.MapReduce的定义 2.MapReduce的优缺点 优点 缺点 3.MapReduce的核心思想 4.MapReduce进程 5.常用数据序列化类型 6.MapReduce的编程规范 用户编写的程序分成三个部分:Mapper、Reducer和Driver 7.WordCount简单操作 需 阅读全文

posted @ 2018-12-09 22:24 nt杨 阅读(257) 评论(0) 推荐(0) 编辑

导航