MapReduce

1、MapReduce入门
1、MapReduce定义
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架
MapReduce核心功能是将用户编写的业务逻辑逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上
2、MapReduce优缺点
优点
1、MapReduce易于编程,它简单的实现一些接口,,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器运行,也就是说你写一个分布式程序,和写一个简单的串行程序是一模一样的,就是因为这个特点使得MapReduce编程变得非常流行
2、良好的扩展性。当你的计算资源不能得到满足时候,你可以通过简单的增加机器来扩展它的计算能力
3、高容错性。MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上,这就要求它具有很高的容错性。例如一台机器挂了,他可以把上面的计算任务转移到另外一个节点上面运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完成是由Hadoop内部完成
4、适合PB级以上海量数据的离线处理
缺点
MapReduce不擅长做实时计算,流式计算,DAG(有向无关图)计算
1、实时计算。MapReduce无法像MySQL一样,在毫秒或者秒级内返回结果
2、流式计算。流式计算的输入数据时动态的,而MapReduce的输入数据集是静态的,不能动态变化。这个是因为MapReduce自身的设计决定了数据源必须是静态的
3、DAG(有向图)计算。多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下。MapReduce斌不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常低下
3、MapReduce核心编程思想
4、Map Reduce进程
一个完整的MapReduce程序分布式运行时有三个进程
1、MrAppMaster:负责整个程序的过程调度及状态协调
2、MapTask:负责map阶段的整个数据处理过程
3、ReduceTask:负责reduce阶段的整个数据处理流程
5、MapReduce编程规范
1用户编写的程序分为分三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端)
1、Mapper阶段
1、用户自定义的Mapper要继承自己的父类
2、Mapper的输入数据时KV对的形式(KV的类型可以自定义)
3、Mapper中的业务逻辑写在map()方法中
4、Mapper的输出数据时KV对的形式(KV的类型可以自定义)
5、map方法(maptask进程)对每一个<K,V>组调用一次reduce()方法
2、Reducer阶段
1、用户自定义的Reducer要继承自己的父类
2、reducer的输入数据类型对应Mapper的输出数据类型,也是KV
3、Reducer的业务逻辑写在reduce()方法中
4、Reducetask进程对每一组相同K的<K,V>组调用一次reduce()方法
3、Driver阶段
整个程序需要一个Driver来进行提交,提交的是一个描述了各种必要信息的job对象
6、MapReduce程序运行流程分析
MapReduce程序运行流程分析.pptx

2、Hadoop序列化
1、为什么要序列化
一般来说。“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机
2、什么是序列化
序列化就是把内存中的对象,转换成字节序列(或者其他数据传输协议)以便于存储(持久化)和网络传输
反序列化就是将收到字节序列(或其他数据传输协议)或者硬盘的持久化数据,转换成内存中的对象
3、为什么不用java的序列化
Java的序列化是个一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便在网络中高效传输。所以Hadoop自己开发了一套序列化机制(Writable),精简、高效。
4、为什么序列化对Hadoop很重要
因为Hadoop在集群之间进行通讯或者RPC调用的时候,需要序列化,而且要求序列化要快,且体积要小,占用带宽要小。所以必须要理解Hadoop的序列化机制
序列化和反序列化在分布式数据处理领域经常出现:进程通信和永久存储。然而Hadoop中各个节点的通信时通过远程调用(RPC)实现的,那么RPC序列化要求具有以下特点
1、紧凑:紧凑的格式能让我们能充分利用网络带宽,而带宽是数据中心最稀缺的资源
2、快速:进程通信形成了分布式系统的骨架,所以需要尽量减少序列化和反序列化的性能开销,这是基本的
3、可扩展:协议为了满足新的需求变化,所以控制客户端和服务器过程中,需要直接引进相应的协议,这是新协议,原序列化方式能支持新的协议报文
4、互操作:能支持不同语言写的客户端和服务端进行交互
5、常用数据序列化类型
6、自定义bean对象实现序列化接口(Writable)
自定义bean对象要想序列化传输,必须实现序列化接口,需要注意以下
1、必须实现Writable接口
2、反序列化时,需要反射调用空参构造函数,所以必须有空参构造
3、重写序列化方法
4、重写反序列化方法
5、注意反序列化的顺序和序列化的顺序是否完全一致
6、要想把结果显示在文件中,需要重写toString(),且用“\t”分隔,方便后续使用
7、如果需要将自定义的bean放在key中传输,还需要实现comparable接口,因为MapReduce框中shuffle过程一定会对key进行排序

3、MapReduce框架原理
1、MapReduce工作流程
流程示意图
流程示意图一
流程示意图二
2、流程详解
1、Maptask收集我们的map方法输出的kv对,放到内存缓冲区中
2、从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件
3、多个溢出文件会被合并成大的溢出文件
4、在溢出过程中,及合并过程中,都要调用partition进行分区和对key进行排序
5、reducetask根据自己的分区号,去各个maptask机器上取相应的结果分区数据
6、reducetask会取到同一个分区来自不同maptask的结果文件,reducetask会将这些文件在进行合并(归并排序)
7、合并成大文件后,shuffle的过程也就结束了,后面进入reducetask的逻辑运算过程(从文件中取出一个一个的键值对group,调用用户自定义的reduce()方法)
3、注意事项
shuffle中的缓冲区大小会影响到MapReduce程序的执行效率,原则上说,缓冲区越大,磁盘IO的次数越少,执行速度就越快
2、InputFormat数据输入
1、Inputformat接口实现类
2、自定义inputformat
1、概述
1、自定义一个类继承FileInputformat
2、改写RecordReader,实现一次读取一个完整文件封装成KV
3、在输出时使用SequenceFileOutPutFormat输出合并文件
3.2.3 FileInputFormat切片机制
1)job提交流程源码详解
Job提交流程源码解析.pptx
2)FileInputFormat源码解析(input.getSplits(job))
(1)找到你数据存储的目录。
(2)开始遍历处理(规划切片)目录下的每一个文件
(3)遍历第一个文件ss.txt
a)获取文件大小fs.sizeOf(ss.txt);
b)计算切片大小computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M
c)默认情况下,切片大小=blocksize
d)开始切,形成第1个切片:ss.txt—0:128M 第2个切片ss.txt—128:256M 第3个切片ss.txt—256M:300M(每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片)
e)将切片信息写到一个切片规划文件中
f)整个切片的核心过程在getSplit()方法中完成。
g)数据切片只是在逻辑上对输入数据进行分片,并不会再磁盘上将其切分成分片进行存储。InputSplit只记录了分片的元数据信息,比如起始位置、长度以及所在的节点列表等。
h)注意:block是HDFS上物理上存储的存储的数据,切片是对数据逻辑上的划分。
(4)提交切片规划文件到yarn上,yarn上的MrAppMaster就可以根据切片规划文件计算开启maptask个数。
3)FileInputFormat中默认的切片机制:
(1)简单地按照文件的内容长度进行切片
(2)切片大小,默认等于block大小
(3)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
4)FileInputFormat切片大小的参数配置
5)获取切片信息API
3.2.4 CombineTextInputFormat切片机制
关于大量小文件的优化策略
1)默认情况下TextInputformat对任务的切片机制是按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个maptask,这样如果有大量小文件,就会产生大量的maptask,处理效率极其低下。
2)优化策略
(1)最好的办法,在数据处理系统的最前端(预处理/采集),将小文件先合并成大文件,再上传到HDFS做后续分析。
(2)补救措施:如果已经是大量小文件在HDFS中了,可以使用另一种InputFormat来做切片(CombineFileInputFormat),它的切片逻辑跟TextFileInputFormat不同:它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个maptask。
(3)优先满足最小切片大小,不超过最大切片大小
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
CombineTextInputFormat.setMinInputSplitSize(job, 2097152);// 2m
举例:0.5m+1m+0.3m+5m=2m + 4.8m=2m + 4m + 0.8m
3)具体实现步骤
// 9 如果不设置InputFormat,它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class)
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
CombineTextInputFormat.setMinInputSplitSize(job, 2097152);// 2m
4)案例实操
详见7.1.4 需求4:大量小文件的切片优化(CombineTextInputFormat)。
3、MapTask工作机制
1、并行度决定机制
问题引出
maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。那么,是不是maptask并行任务越多越好
Maptask并行度决定机制
一个Job的map阶段MapTask并行度(个数),由客户端提交job时切片个数决定
数据切片及MaoTask并行度决定机制
1、一个job的map阶段并行度由客户端在提交job时决定
2、每一个split切片分配一个maptask并行实例处理
3、默认情况下,切片大小=blocksize
4、切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
2 MapTask工作机制
(1)Read阶段:Map Task通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。
(2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。
(3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中。
(4)Spill阶段:即“溢写”,当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。
(5)Combine阶段:当所有数据处理完成后,MapTask对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。
4、Shuffle机制
Shuffle机制
1、Mapreduce确保每一个reducer的输入都是按键排序,系统执行排序的过程(即将map输出作为输入传入给reducer)称为shuffle
2、shuffle流程
Partition分区
0)问题引出:要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区)
1)默认partition分区
2)自定义Partitioner步骤
(1)自定义类继承Partitioner,重写getPartition()方法
(2)在job驱动中,设置自定义partitioner:
(3)自定义partition后,要根据自定义partitioner的逻辑设置相应数量的reduce task
3)注意:
如果reduceTask的数量> getPartition的结果数,则会多产生几个空的输出文件part-r-000xx;
如果1<reduceTask的数量<getPartition的结果数,则有一部分分区数据无处安放,会Exception;
如果reduceTask的数量=1,则不管mapTask端输出多少个分区文件,最终结果都交给这一个reduceTask,最终也就只会产生一个结果文件 part-r-00000;
例如:假设自定义分区数为5,则
(1)job.setNumReduceTasks(1);会正常运行,只不过会产生一个输出文件
(2)job.setNumReduceTasks(2);会报错
(3)job.setNumReduceTasks(6);大于5,程序会正常运行,会产生空文件
WritableComparable排序
排序是MapReduce框架中最重要的。MapTask和ReduceTask会对数据(按照key)进行排序。属于Hadoop的默认行为,任何应用程序的数据均会被排序,不管逻辑上是否需要
对于mapTask,他会把处理的结果暂时放到一个环形缓冲区,当缓冲区使用率达到一定阈值,再对缓冲区中的数据进行一次排序,并将这些有序数据写到磁盘上,当数据处理完毕后,会对磁盘上的所有文件进行一次合并,将这些文件合并成一个大的有序文件
对于ReduceTask,它从每一个MapTask上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则会磁盘上,否则放到内存中。当磁盘上文件数目达到一定阈值,就会进行一次合并生成一个大文件。如果内存中文件大小或者数目超过一定阈值,进行一次合并将数据写到磁盘上,当所有数据拷贝完毕,ReduceTask统一对内存和磁盘的所有数据进行一次合并
1)排序的分类:
(1)部分排序:
MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部排序。
(2)全排序:
如何用Hadoop产生一个全局排序的文件?最简单的方法是使用一个分区。但该方法在处理大型文件时效率极低,因为一台机器必须处理所有输出文件,从而完全丧失了MapReduce所提供的并行架构。
替代方案:首先创建一系列排好序的文件;其次,串联这些文件;最后,生成一个全局排序的文件。主要思路是使用一个分区来描述输出的全局排序。例如:可以为上述文件创建3个分区,在第一分区中,记录的单词首字母a-g,第二分区记录单词首字母h-n, 第三分区记录单词首字母o-z。
(3)辅助排序:(GroupingComparator分组)
Mapreduce框架在记录到达reducer之前按键对记录排序,但键所对应的值并没有被排序。甚至在不同的执行轮次中,这些值的排序也不固定,因为它们来自不同的map任务且这些map任务在不同轮次中完成时间各不相同。一般来说,大多数MapReduce程序会避免让reduce函数依赖于值的排序。但是,有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序。
(4)二次排序:
在自定义排序过程中,如果compareTo中的判断条件为两个即为二次排序。
2)自定义排序WritableComparable
(1)原理分析
bean对象实现WritableComparable接口重写compareTo方法,就可以实现排序
(2)案例实操
详见7.2.3 需求3:将统计结果按照总流量倒序排序(排序)
详见7.2.4 需求4:不同省份输出文件内部排序(部分排序)
5、combiner合并
1、combiner是MR程序中Mapper和Reducer之外的一种组件
2、combinner组件的父类就是Reducer
3、combiner和reduce的区别在于运行的位置
1、Combiner是在每一个MapTask所在节点运行
2、Reducer是被接受全局所有Mapper的输出结果
4、combiner的意义就是对每一个Maptask的输出进行局部汇总。以减少网络传输量
5、Combiner能够应用的前提是不能影响最终的业务逻辑,而且combiner的输出KV应该跟Reducer的输入KV类型要对应起来
6、自定义Combiner实现步骤
1、自定义一个combiner继承Reducer,重写reduce方法
2、在job驱动类中设置
6、ReduceTask工作机制
1、设置ReduceTask
ReduceTask的并行度同样影响整个job的执行并发度和执行效率,但与MapTask的并发数由切片决定不同,ReduceTask数量决定是可以直接手动设置
2、注意
1、ReduceTask=0,表示没有Reduce阶段,输出文件个数和map个数一致
2、reduceTask默认值就是1,所以输出文件个数为一个
3、如果数据分布不均匀,就有可能在Reduce阶段产生数据倾斜
4、ReduceTask数量并不是任意设置,还要考虑业务逻辑需求,有些情况下,需要计算全局汇总结果,就只能有一个ReduceTask
5、具体多少个ReduceTask,需要根据集群性能决定
6、如果分区数不为1,但是ReducerTask为1,是否执行分区过程。答案是:不执行分区过程。因为在MapTask的源码中,执行分区的前提是先判断ReduceNum的个数是否大一1.不大于1肯定不执行
ReduceTask工作机制
1、copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则会写到磁盘上,否则放到内存中
2、Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多
3、sort阶段:按照MapReduce语义,用户编写Reduce()函数输入数据是按Key进行聚集的一组数据。为了将Key相同的数据聚在一起,Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行局部排序,因此,ReduceTask只需对所有数据进行一次归并排序即可
4、Reduce阶段:reduce()函数将计算结果写到HDFS上
7、OutputFormat数据输出
1、OutputFormat接口实现类
1、OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口
文本输出TextOutputFormat
默认的输出格式是TextOutputFormat,它把每条记录写为文本行。它的键和值可以是任意类型。因为TextOutputFormat调用toString()方法把他们转换为字符串
SequenceFileOutputFormat
SequenceFileOutputFormat将它的输出写为一个顺序文件。如果输出需要作为后续MapReduce任务的输入这便是一种好的输出格式,因为他的格式紧凑,很容易被压缩
3.6.2 自定义OutputFormat
为了实现控制最终文件的输出路径,可以自定义OutputFormat。
要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需求可以通过自定义outputformat来实现。
1)自定义OutputFormat步骤
(1)自定义一个类继承FileOutputFormat。
(2)改写recordwriter,具体改写输出数据的方法write()。
8、计数器应用
Hadoop为每个作业维护若干内置计数器,以描述多项指标。例如,某些计数器记录已处理的字节数和记录数,使用户可监控已处理的输入数据量和已产生的输出数据量。
1)API
(1)采用枚举的方式统计计数
(2)采用计数器组、计数器名称的方式统计
(3)计数结果在程序运行后的控制台上查看。
2)案例实操
详见7.6 修改日志内容及自定义日志输出路径(自定义OutputFormat)。
9、 Join多种应用
3.8.1 Reduce join
1)原理:
Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。
reduce端的主要工作:在reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在map阶段已经打标志)分开,最后进行合并就ok了
2)该方法的缺点
这里主要分析一下reduce join的一些不足。之所以会存在reduce join这种方式,是因为整体数据被分割了,每个map task只处理一部分数据而不能够获取到所有需要的join字段,因此我们可以充分利用mapreduce框架的特性,让他按照join key进行分区,将所有join key相同的记录集中起来进行处理,所以reduce join这种方式就出现了。
这种方式的缺点很明显就是会造成map和reduce端也就是shuffle阶段出现大量的数据传输,效率很低。
3.8.2 Map join
1)使用场景:一张表十分小、一张表很大。
2)使用方法:
在提交作业的时候先将小表文件放到该作业的DistributedCache中,然后从DistributeCache中取出该小表进行join (比如放到Hash Map等等容器中)。然后扫描大表,看大表中的每条记录的join key/value值是否能够在内存中找到相同join key的记录,如果有则直接输出结果。
3.8.3 Distributedcache分布式缓存
1)数据倾斜原因
如果是多张表的操作都是在reduce阶段完成,reduce端的处理压力太大,map节点的运算负载则很低,资源利用率不高,且在reduce阶段极易产生数据倾斜。
2)实操案例:
详见7.4.1 需求1:reduce端表合并(数据倾斜)
3)解决方案
在map端缓存多张表,提前处理业务逻辑,这样增加map端业务,减少reduce端数据的压力,尽可能的减少数据倾斜。
4)具体办法:采用distributedcache
(1)在mapper的setup阶段,将文件读取到缓存集合中
(2)在驱动函数中加载缓存。
5)实操案例:
详见7.4.2需求2:map端表合并(Distributedcache)
10、数据清洗
1)概述
在运行核心业务Mapreduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行mapper程序,不需要运行reduce程序。
11、MapReduce开发总结

4、Hadoop数据压缩

posted @ 2021-09-15 16:39  tonggang_bigdata  阅读(368)  评论(0编辑  收藏  举报