hadoop介绍

　1.狭义上hadoop是指Apache软件基金会的一款开源软件，允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理

　2.hadoop核心组件

　　hadoop HDFS(分布式文件存储系统)：解决海量数据存储

　　hadoop YARN(集群资源管理和任务调度框架)：解决资源任务调度

　　hadoop MapReduce(分布式计算框架)：解决海量数据计算

　3.hadoop现状

　　hdfs作为分布式文件存储系统，处在生态圈的底层和核心地位

　　yarn作为分布式通用的集群资源管理系统和任务调度平台，支持各种计算引擎运行，保证了hadoop的地位

　　MapReduce作为大数据生态圈第一代分布式计算引擎，由于自身设计的模式所产生的弊端，导致企业一线几乎不再直接使用mapreduce进行编程处理，但是很多软件的底　　　　　　　　　　　　　　　　层仍然在使用MapReduce引擎来处理数据

　4.hadoop优点

　　扩容能力：hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可方便灵活的方式扩展到数以千计的节点

　　成本低：hadoop集群允许通过部署普通廉价的集群组成集群来处理大数据，以至于成本很低，看重的是集群的整体能力

　　效率高：通过并发数据，hadoop可以在节点之间动态并行的移动数据，使得速度非常快

　　可靠性：能自动维护数据的多份复制，并且在任务失败后能自动地重新部署计算任务，所以hadoop的按位存储和处理数据能力值得人们信赖

　5.hadoop集群整体概述

　　hadoop集群包括两个集群：1）HDFS集群，YARN集群；2）两个集群逻辑上分离(两个集群之间互相没有依赖)，物理上在一起(某些角色进程往往部署在同一台物理服务器上)；3）两个集群都是标准的主从架构集群；

　　HDFS集群(分布式存储)：主角色(NameNode)，从角色(DataNode)，主角色辅助角色(SecondaryNameNode)

　　YARN集群(资源管理，调度)：主角色(ResourceManager)，从角色(Nodemanager)

　6.HDFS分布式存储

　　1）文件系统是一种存储和组织数据的方法，实现了数据的存储，分级组织，访问和获取等操作，使得用户对文件访问和查找变得容易

　　2）传统常见的文件系统更多指的是单机的文件系统，也就是底层不会横跨多台机器实现。比如windows操作系统上的文件系统，linux上的文件系统，ftp文件系统等

　　　　这些文件系统的共同特征包括：带有抽象的目录树结构，树都是从/根目录开始往下蔓延；树中节点分为两类，目录和文件；从根目录开始，节点路径具有唯一性

　　3）数据：指的存储内容本身，比如文件，视频，图片等，这些数据底层最终是存储在磁盘等存储介质上的，一般用户无需关心，只需要基于目录树进行增删改查即可，实际针对数据的操作由文件系统完成

　　　　元数据：又称之为解释性数据，记录数据的数据，文件系统元数据一般指文件大小，最后的修改时间，底层存储位置，属性，所属用户，权限等信息

　　4）核心属性及其功能

　　　　1.分布式存储的优点：无限扩展支持海量数据存储

　　　　2.元数据记录的功能是什么：快速定位文件位置便于查找

　　　　3.文件分块存储的好处是什么：针对块并行操作提高效率

　　　　4.设置副本备份的作用是什么：冗余数据保障数据安全

　　5）HDFS简介

　　　　1.HDFS主要是解决大数据如何存储问题的。分布式意味着HDFS是横跨在多台计算机上的存储系统

　　　　2.HDFS是一种能够在普通硬件上运行的分布式文件系统，它是高度容错的，适应于具有大数据集的应用程序，它非常适于存储大型数据

　　　　3.HDFS使用多台计算机存储文件，并且提供统一的访问接口，像是访问一个普通文件系统一样使用分布式文件系统

　　6）应用场景

　　　　1.适合场景：大文件；数据流式访问批次处理；一次写入多次读取；低成本部署，廉价pc高容错

　　　　2.不适合场景：小文件；数据交互式访问；频繁任意修改；低延迟处理

　　7）重要特性解读

　　　　1.主从架构

　　　　　　1）HDFS集群是标准的master/slave主从架构集群

　　　　　　2）一般一个HDFS集群是有一个Namenode和一定数目的Datanode组成

　　　　　　3）Namenode是HDFS主节点，Datanode是HDFS从节点，两者各司其职，共同协调完成分布式的文件存储服务

　　　　　　4）官方架构图中是一主五从模式，其中五个从角色位于两个机架的不同服务器上

　　　　2.分块存储

　　　　　　1）HDFS中的文件在物理上是分块存储的，默认大小是128M，不足128M则本身就是一块

　　　　　　2）块的大小可以通过配置参数来规定，参数位于hdfs-default.xml中：dfs.blocksize

　　　　3.副本机制

　　　　　　1）文件的所有block都会有副本，副本系数可以在文件创建的时候指定，也可以在之后通过命令改变

　　　　　　2）副本数由参数dfs.replication控制，默认值是3，也就是会额外再复制2份，连同本身总共3份副本

　　　　4.元数据管理

　　　　　　在HDFS中，Namenode管理的元数据具有两种类型

　　　　　　文件自身属性信息：文件名称，权限，修改时间，文件大小，复制因子，数据块大小

　　　　　　文件块位置映射信息：记录文件块和DataNode之间的映射信息，即哪个块位于哪个节点上

　　　　5.namespace(抽象目录树)

　　　　　　HDFS支持传统的层次型文件组织结构。用户可以创建目录，然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似

　　　　　　Namenode负责维护文件系统的namespace名称空间，任何对文件系统名称空间或属性的修改都将被Namenode记录下来

　　　　　　HDFS会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

　　　　6.数据库存储

　　　　　　文件的各个block的具体存储管理由DataNode节点承担

　　　　　　每一个block都可以在多个DataNode上存储

　　7.文件系统协议（hadoop dfs与hdfs dfs本质相同，版本问题）

　　　　1）HDFS Shell CLI支持操作多种文件系统，包括本地文件系统(file:///)，分布式文件系统(hdfs://nn:8020)等

　　　　2）具体操作的是什么文件系统取决于命令中文件路径URL中的前缀协议

　　　　3）如果没有指定前缀，则将会读取环境变量中的fs.defaultFS属性，以该属性值作为默认文件系统(在core-site.xml配置文件中)　　

　　　　hadoop fs -ls file:///：操作本地文件系统

　　　　hadoop fs -ls hdfs://master1:9000：操作HDFS分布式文件系统(在core-site.xml配置文件中)

　　　　hadoop fs -ls /：直接根目录，没有指定协议将加载读取fs.defaultFS值

　　8.shell命令常用操作

　　　　1）hadoop fs -mkdir [-p] <path>...

　　　　　　path 为待创建的目录，-p选项的行为与linux 中mkdir -p非常相似，它会沿着路径创建父目录

　　　　2）查看指定目录下内容　　

　　　　　　hadoop fs -ls [-h] [-R] <path>...

　　　　　　path 指定目录路径；-h 人性化显示文件size；-R 递归查看指定目录及其子目录

　　　　3）上传文件到HDFS指定目录下

　　　　　　hadoop fs -put [-f] [-p] <localsrc>...<dst>

　　　　　　-f 覆盖目标文件(已存在的情况下)

　　　　　　-p 保留访问和修改时间，所有权和权限

　　　　　　localsrc 本地文件系统(客户端所在机器)

　　　　　　dst 目标文件系统(HDFS)：hadoop fs -put 2.txt /——>将本地文件2.txt上传至HDFS文件系统根目录下

　　　　4）查看HDFS文件内容

　　　　　　hadoop fs -cat <src>....

　　　　　　hadoop fs tail <src>....

　　　　　　读取指定文件全部内容，显示在标准输出控制台，注意对于大文件要慎重

　　　　　　示例：hadoop fs -cat /itcast/1.txt

　　　　5）下载HDFS文件

　　　　　　hadoop fs -get [-f] [-p] <src>...<localdst>

　　　　　　下载文件到本地文件系统指定目录，localdst必须是目录

　　　　　　-f 覆盖目标文件（已存在情况下）

　　　　　　-p 保留访问和修改时间，所有权和权限

　　　　　　示例：hadoop fs -get /itcast/1.txt /opt/666.txt

　　　　6）拷贝HDFS文件

　　　　　　hadoop fs -cp [-f] <src>...<dst>

　　　　　　-f 覆盖目标文件（已存在情况下）

　　　　　　示例：hadoop fs -cp /itcast/1.txt /opt

　　　　7）追加数据到HDFS文件中

　　　　　　hadoop fs -appendToFile <localsrc>...<dst>

　　　　　　将所有给定本地文件的内容追加到给定dst文件中

　　　　　　dst如果文件不存在，将创建该文件

　　　　　　示例：
　　　　　　　　echo 1 > 1.txt

　　　　　　　　echo 2 > 2.txt

　　　　　　　　echo 3 > 3.txt

　　　　　　　　hadoop fs -put 1.txt /

　　　　　　　　hadoop fs -cat /1.txt

　　　　　　　　hadoop fs appendToFile 2.txt 3.txt /1.txt

　　　　　　　　hadoop fs -cat /1.txt

　　　　8）HDFS数据移动操作

　　　　　　hadoop fs -mv <src>...<dst>

　　　　　　移动文件到指定文件夹下；可以使用该命令移动数据，重命名文件的名称

　　9.HDFS工作流程与机制—各角色职责介绍与梳理

　　　　1）NameNode

　　　　NameNode是Hadoop分布式文件系统的核心，架构中的主角色

　　　　NameNode维护和管理文件系统元数据，包括名称空间目录树结构，文件和块的位置信息，访问权限等信息

　　　　　　NameNode内部通过内存和磁盘文件两种方式管理元数据

　　　　　　其中磁盘上的元数据文件包括Fsimage内存元数据镜像文件和edits log(Journal)编辑日志

　　　　基于此，NameNode成为了访问HDFS的唯一入口

　　　　职责：

　　　　NameNode仅存储HDFS的元数据：文件系统中的所有文件的目录树，并跟踪整个集群中的文件，不存储实际数据

　　　　NameNode知道HDFS中任何给定文件的块列表及其位置，使用此信息NameNode知道如何从块中构建文件

　　　　NameNode不持久化存储每个文件中各个块所在的Datanode的位置信息，这些信息会在系统启动时从DataNode重建

　　　　NameNode是Hadoop集群中的单点故障

　　　　NameNode所在机器通常会配置有大量内存(RAM)

　　　　2）DataNode

　　　　DataNode是Hadoop HDFS中的从角色，负责具体的数据块存储

　　　　DataNode的数量决定了HDFS集群的整体数据存储能力，通过和NameNode配合维护着数据块

　　　　职责：

　　　　DataNode负责最终数据块block的存储，是集群的从角色，也称为Slave

　　　　DataNode启动时，会将自己注册到NameNode并汇报自己负责持有的块列表

　　　　当某个DataNode关闭时，不会影响数据的可用性。NameNode将安排由其它DataNode管理的块进行副本负责

　　　　DataNode所在机器通常配置有大量的硬盘空间，因为实际数据存储在DataNode中

　　　　3）secondarynamenode

　　　　SecondaryNamenode充当NameNode的辅助节点，但不能代替NameNode

　　　　主要是帮助主角色进行元数据文件的合并动作，可以通俗的理解为NameNode的秘书

　　10.HDFS工作流程与机制—写数据流程

　　　　1）pipeline，中文翻译为管道。这是HDFS在上传文件写数据过程中采用的一种数据传输方式

　　　　　　客户端将数据块写入第一个数据节点，第一个数据节点保存数据之后再将块复制到第二个数据节点，后者保存后将其复制到第三个数据节点

　　　　2）为什么datanode之间采用pipeline线性传输，而不是一次给三个datanode拓扑式传输呢？

　　　　　　因为数据以管道的方式顺序地沿着一个方向传输，这样能够充分利用每个机器的带宽，避免网络瓶颈和高延迟的连接，最小化推送所有数据的延时

　　　　3）ACK应答响应

　　　　　　ACK即是确认字符，在数据通信中，接收方发给发送方的一种传输类控制字符，表示发来的数据已确认接收无误。

　　　　　　在HDFS pipeline管道传输数据的过程中，传输的反方向会进行ACK校验，确保数据传输安全

　　　　4）默认3副本存储策略

　　　　　　第一块副本：优先客户端本地，否则随机

　　　　　　第二块副本：不同于第一块副本的不同机架

　　　　　　第三块副本：第二块副本相同机架不同机器

　　　　底层梳理：

　　　　　　1.HDFS客户端创建对象实例DistributedFileSystem，该对象中封装了与HDFS文件系统操作的相关方法

　　　　　　2.调用DistributedFileSystem对象的create()方法，通过RPC请求NameNode创建文件。NameNode执行各种检查判断：目标文件是否存在，父目录是否存在，客　　　　　　　　　　户端是否具备创建该文件的权限。检查通过，NameNode就会为本次请求记下一条记录，返回DistributedFileSystem输出流对象给客户端用于写数据

　　　　　　3.客户端通过DataOutputStream输出流开始写入数据

　　　　　　4.客户端写入数据时，将数据分成一个个数据包(packet 默认64k)，内部组件DataStreamer请求NameNode挑选出适合存储数据副本的一组DataNode地址，默认　　　　是3副本存储。即DataStreamer将数据包流式传输到pipeline的第一个DataNode，该DataNode存储数据包并将它发送到pipeline的第二个DataNode。同样，第　　　　　　二个DataNode存储数据包并且发送给第三个DataNode

　　　　　　5.传输的反方向上，会通过ACK机制校验数据包传输是否成功

　　　　　　6.客户端完成数据写入后，在FSDataOutputStream输出流上调用close()方法关闭

　　　　　　7.DistributedFileSystem联系NameNode告知其文件写入完成，等待NameNode确认。因为NameNode已经知道文件由哪些块组成(DataNode请求分配数据块)，因此只需等待最小复制块即可成功返回。最小复制块是由参数dfs.namenode.replication.min指定，默认是1

　　11.MapReduce计算框架

　　　　1）思想：

　　　　MapReduce的思想核心是“先分再合，分而治之”。所谓“分而治之”就是把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，然后把各部分的结果组成整个问题的最终结果

　　　　Map表示第一阶段负责“拆分”：即把复杂的任务分解为若干个“简单的子任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系

　　　　Reduce表示第二阶段负责“合并”：即对map阶段的结果进行全局汇总。

　　　　2）如何对付大数据处理场景

　　　　对相互间不具有计算依赖关系的大数据计算任务，实现并行最自然的办法就是采取MapReduce分而治之的策略

　　　　首先Map阶段进行拆分，把大数据拆分成若干份小数据，多个程序同时并行计算产生中间结果；然后Reduce聚合阶段，通过程序对并行的结果进行最终的汇总计算

　　　　不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算

　　　　3）构建抽象编程模型

　　　　MapReduce借鉴了函数式语言中的思想，用Map和Reduce两个函数提供了高层的并行编程抽象模型

　　　　　　map：对一组数据元素进行某种重复式的处理

　　　　　　reduce：对map的中间结果进行某种进一步的结果整理

　　　　MapReduce中定义了如下的Map和Reduce两个抽象的编程接口，由用户去编程实现

　　　　　　map：(k1:v1)—>(k2:v2)

　　　　　　reduce：(k2:[v2])—>(k3:v3)

　　　　通过以上两个编程接口，可以看出mapreduce处理的数据类型式<key,value>键值对

　　　　4）统一架构，隐藏底层细节

　　　　　　如何统一的计算框架，如果没有统一封装底层细节，那么程序员则需要考虑诸如数据存储，划分，分发，结果收集，错误恢复等诸多细节；为此，MapReduce设计并提供了统一的计算框架，为程序员隐藏了绝大多数系统层面的处理细节

　　　　　　MapReduce最大的亮点在于通过抽象模型和计算框架把需要做什么和具体怎么做分开了，为程序员提供一个抽象和高层的编程接口和框架

　　　　　　程序员仅需关心其应用层的具体计算问题，仅需编写少量的处理应用本身计算问题的业务程序代码

　　　　　　至于如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来，交给计算框架去处理；从分布代码的执行，到大到数千小到单个节点集群的自动调度使用

　　　　5）分布式计算概念

　　　　　　分布式计算是一种计算方法和集中式计算是相对的

　　　　　　随着计算技术的发展，有些应用需要非常大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成

　　　　　　分布式计算将应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率

　　　　　　Hadoop MapReduce是一个分布式计算框架，用于轻松编写分布式应用程序，这些应用程序以可靠，容错的方式并行处理大型硬件集群(数千个节点)上的大量数据，MapReduce是一种面向海量数据处理的一种指导思想，也是一种用于对大规模数据进行分布式计算的编程模型

　　　　6）MapReduce特点

　　　　　　易于编程：MapReduce框架提供了用于二次开发的接口，简单地实现一些接口，就可以完成一个分布式程序。任务计算交给计算框架去处理，将分布式程序部署到Hadoop集群上运行，集群节点可以扩展到成百上千个

　　　　　　良好的扩展性：当计算机资源不能得到满足时，可以通过增加机器来扩展它的计算能力。基于MapReduce的分布式计算的特点可以随节点数目增长保持近似线性的增长，这个特点是MapReduce处理海量数据的关键，通过将计算节点增加几百或者几千可以很容易地处理数百TB甚至PB级别地离线数据

　　　　　　高容错性：Hadoop集群是分布式搭建和部署的，任何一台机器节点宕机了，它可以把上面的计算任务转移到另一个节点上运行，不影响整个作业任务的完成，过程完全是由Hadoop内部完成的

　　　　　　适合海量数据的离线处理：可以处理GB,TB和PB级别的数据量

　　　　7）MapReduce局限性

　　　　　　实时计算性能差：MapRduce主要应用于离线作业，无法做到秒级或者亚秒级得到数据响应

　　　　　　不能进行流式计算：流式计算的特点是数据是源源不断地计算并且数据是动态的，而MapReduce作为一个离线计算框架，主要针对静态数据集，数据是不能动态变化的

　　　　8）MapReduce实例进程

　　　　　　一个完整的MapRedun程序在分布式运行时有三类

　　　　　　MapReduce：负责整个MR程序的过程调度及状态协调

　　　　　　MapTask：负责map阶段的整个数据处理流程

　　　　　　ReduceTask：负责reduce阶段的整个数据处理流程

　　　　9）阶段组成

　　　　　　一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段，或者只有Map阶段

　　　　　　不能有诸多个map阶段，多个reduce阶段的情景出现

　　　　　　如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序串行运行

　　　　10）MapReduce数据类型

　　　　　　注意：整个MapReduce程序中，数据都是以kv键值对的形式流转的

　　　　　　在实际编程解决各种业务问题中，需要考虑每个阶段的输入输出kv是什么

　　　　　　MapReduce内置了很多默认属性，比如排序，分组等，都和数据的k有关，所有说kv的类型数据确定及其重要

　　　　11）官方示例

　　　　评估圆周率的值：hadoop jar hadoop-mapreduce-examples-2.8.3.jar pi 3 3

　　　　　　第一个参数：pi表示MapReduce程序执行圆周率计算任务

　　　　　　第二个参数：用于指定map阶段运行的任务task次数，并发度，这里是3

　　　　　　第三个参数：用于指定每个map任务取样的个数，这里是3

　　　　wordcount编程实现思路：

　　　　　　map阶段的核心：把输入的数据经过切割，全部标记1，因此输出就是<单词，1>

　　　　　　shuffle阶段核心：经过MR程序内部自带默认的排序分组等功能，把key相同的单词会作为一组数据构成新的kv对

　　　　　　reduce阶段核心：处理shuffle完的一组数据，该组数据就是该单词所有的键值对，对所有的1进行累加求和，就是单词的总次数

　　　　wordcount程序提交：

　　　　　　创建文本文件1.txt到HDFS文件系统的/input目录下

　　　　　　vim 1.txt

　　　　　　hadoop fs -mkdir /input

　　　　　　hadoop fs -put 1.txt /input

　　　　　　hadoop jar hadoop-mapreduce-examples-2.8.3.jar wordcount /input /output

　　　　　　查看YARN集群web页面刷新结果

　　　　　　　　第一个参数：wordcount表示执行单词统计任务

　　　　　　　　第二个参数：指定输入文件的路径

　　　　　　　　第三个参数：指定输出结果的路径(该路径不能已存在)　　本版本原因需要先get到本地查看：hadoop fs -get /out/part-r-000000 ./666.txt

　　　　12）map阶段执行过程

　　　　　　第一阶段：把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认Split size = Block size(128M)，每一个切片由一个MapTask处理

　　　　　　第二阶段：对切片中的数据按照一定的规则读取解析返回<key,value>对。默认是按行读取数据，key是每一行的起始位置偏移量，value是本行的文本内容

　　　　　　第三阶段：调用Mapper类中的map方法处理数据，每读取解析出来的一个<key,value>，调用一次map方法

　　　　　　第四阶段：按照一定的规则对Map输出的键值对进行分区，默认不分区，因为只有一个reducetask，分区的数据就是reducetask运行的数量

　　　　　　第五阶段：Map输出数据写入内存缓冲区，达到比例溢出到磁盘上，溢出spill的时候根据key进行排序sort。默认根据key字典序排序

　　　　　　第六阶段：对所有溢出文件进行最终的merge合并，成为一个文件

　　　　13）reduce阶段执行过程

　　　　　　第一阶段：ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据

　　　　　　第二阶段：把拉取来的数据全部进行合并merge,即把分散的数据合并成一个大的数据，再对合并后的数据排序

　　　　　　第三阶段：对排序后的键值对调用reduce方法，键相等的键值对调用一次reduce方法，最后把这些输出的键值对写入到HDFS中

　　　　14）shuffle概念

　　　　　　shuffle的本意是洗牌，混洗的意思，把一组有规则的数据尽量打乱成无规则的数据

　　　　　　而在MapReduce中，Shuffle更像洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理

　　　　　　一般把从Map产生输出开始到Reduce取得数据作为输入之前的过程称之为Shuffle

　　　　　　Map端shuffle：
　　　　　　　　collect阶段：将MapTask的结果收集输出到默认大小为100M的环形缓冲区，保存之前会对key进行分区的计算，默认Hash分区　　

　　　　　　　　spill阶段：当内存的数据量达到一定的阈值的时候，就会将数据写入本地磁盘中，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配置了combiner,还会将有相同分区号和key的数据进行排序

　　　　　　　　Merge阶段：把所有溢出的临时文件进行一次合并操作，以确保一个MapTask最终只产生一个中间数据文件　　

　　　　　　Reduce端shuffle：

　　　　　　　　copy阶段：ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据

　　　　　　　　merge阶段：在ReduceTask远程复制数据的同时，会在后台开启两个线程对内存到本地的数据文件进行合并操作

　　　　　　　　sort阶段：在对数据进行合并的同时，会进行排序操作，由于MapTask阶段已经对数据进行了局部的排序，ReduceTask只需要保证copy的数据的最终整体有效性即可

　　　　　　shuffle机制弊端：

　　　　　　　　shuffle是MapReduce程序的核心与精髓，是MapReduce的灵魂所在

　　　　　　　　shuffle也是MapReduce被诟病最多的地方所在。MapReduce相较于Spark,Flink计算引擎慢的原因，跟shuffle机制有很大的关系

　　　　　　　　shuffle中频繁涉及到数据在内存，磁盘之间的多次往复

　　12.Hadoop YARN介绍

　　　　Hadoop YARN是一种新的Hadoop资源管理器。YARN是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。它的引入为集群在利用率，资源统一管理和数据共享等方面带来了巨大好处。

　　　　资源管理系统：集群的硬件资源和程序运行相关，比如内存，cpu等

　　　　调度平台：多个程序同时申请计算资源怎么分配，调度的规则(算法)

　　　　通用：不仅仅支持MapReduce程序，理论上支持各种计算程序。YARN不关心你干什么，只关心你要资源，在有的情况下给你用完之后还我

　　　　1）可以把Hadoop YARN理解为相当于一个分布式的操作系统平台，而MapReduce等计算程序则相当于运行于操作系统之上的应用程序，YARN为这些程序提供运算所需的资源(内存，cpu等)

　　　　2）Hadoop能有今天这个地位，YARN可以说功不可没。因为有了YARN，更多计算框架可以接入到HDFS中，而不单单是MapReduce，正是有了YARN的包容，使得其它计算框架能专注于计算性能的提升

　　　　3）HDFS可能不是最优秀的大数据存储系统，但却是应用最广泛的大数据存储系统，YARN功不可没

　　　　4）YARN3大组件

　　　　ResourceManager(RM)：
　　　　　　YARN集群中的主角色，决定系统中所有应用程序之间资源分配的最终权限，即最终仲裁者

　　　　　　接收用户的作业提交，并通过NM分配，管理各个机器上的计算资源

　　　　NodeManager(NM)：

　　　　　　YARN中的从角色，一台机器上一个，负责管理本机器上的计算资源

　　　　　　根据RM命令，启动container容器，监视容器的资源使用情况，并且向RM主角色汇报资源使用情况

　　　　ApplicationMaster(AM)

　　　　　　用户提交的每一个应用程序均包含一个AM

　　　　　　应用程序内的“老大”，负责程序内部各阶段的资源申请，监督程序的执行情况

　　　　5）YARN集群交互流程

　　　　MR作业提交：Client—>RM

　　　　资源的申请：MrAppMaster—>RM

　　　　MR作业汇报情况：Container(Map|Reduce Task)—>Container(MrAppMaster)

　　　　节点的状态汇报：NM—>RM

　　　　整体概述：

　　　　当用户向YARN中提交一个应用程序后，YARN将分两个阶段运行该应用程序

　　　　第一阶段是客户端申请资源启动运行本次程序的ApplicationMaster(AM)

　　　　第二阶段是由ApplicationMaster根据本次程序内部具体情况，为它申请资源并监控它的整个运行过程，直到运行完成

　　　　MR提交YARN交互流程：

　　　　第一步：用户通过客户端向YARN中ResourceManeger提交应用程序(比如hadoop jar提交MR程序)

　　　　第二步：ResourceManager为该应用程序分配第一个Container(容器)并与对应的NodeManager通信，要求它在这个Container中启动这个应用程序的ApplicationMaster

　　　　第三步：ApplicationMaster启动成功之后，首先向ResourceManager注册并保持通信，这样用户可以直接通过ResourceManeger查看应用程序的运行状态(运行了百分之几)

　　　　第四步：AM为本次程序内部的各个Task任务向RN申请资源，并监控它的运行状态

　　　　第五步：一旦ApplicationMaster申请到资源后，便于对应的NodeManager通信，要求它启动任务

　　　　第六步：NodeManager为任务设置好运行环境后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务

　　　　第七步：各个任务通过某个RPC协议向ApplicationfMaster汇报自己的状态与进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。在应用程序运行过程当中，用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态

　　　　第八步：应用程序运行完成后ApplicationMaster向ResourceManager注销并关闭自己

　　　　6）YARN资源调度器scheduler

　　　　如何理解调度资源？
　　　　　　在理想情况下，应用程序提出的请求将立即得到YARM批准。但是实际中，资源是有限的，并且在繁忙的集群上，应用程序通常将需要等待其某些请求得到满足。YARN调度程序的工作是根据一些自定义的策略为应用程序分配资源

　　　　　　在YARN中，负责给应用分配资源的就是scheduler，它是ResourceManager的核心组件之一。scheduler完全专用于调度作业，它无法跟踪应用程序的状态

　　　　　　一般而言，调度是一个难题，并且没有一个最佳的“策略”，为此，YARN提供了多种调度器和可配置的策略供选择

　　　　调度策略：

　　　　三种调度器：FIFO Scheduler(先进先出调度器)，Capacity Scheduler(容量调度器)，Fair Scheduler(公平调度器)

　　　　Apache版本YARN默认使用Capacity Scheduler

　　　　如果需要使用其它的调度器，可以在yarn-site.xml的yarn.resourcemanager.scheduler.calss进行配置

　　　　1.FIFO Scheduler概述：

　　　　　　FIFO Scheduler是Hadoop。x中JobTracker原有的调度器实现，此调度器在YARN中保留了下来

　　　　　　FIFO Scheduler是一个先进先出的思想，即先提交的应用先运行。

　　　　　　FIFO Scheduler拥有一个控制全局的队列queue，默认queue名称为default，该调度器会获取当前集群上所有的资源信息作用于这个全局的queue

　　　　　　优势：无需配置，先到先得，易于执行

　　　　　　坏处：任务的优先级不会变高，因此高优先级的作业需要等待，不适合共享集群

　　　　2.Capacity Scheduler概述

　　　　　　Capacity Scheduler容量调度是Apache Hadoop3.x默认调度策略。该策略允许多个组织共享整个集群资源，每个组织可以获得集群中的一部分计算能力。通过为每个组织分配专门的队列，然后再为每个队列分配一定的集群资源，这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了

　　　　　　Capacity可以理解为一个个资源队列，这个资源队列是用户自己去分配的。队列内部又可以垂直划分，这样一个组织内部的多个成员就可以共享这个队列资源了，在一个队列内部资源的调度是采用的是先进先出策略

　　　　　　Capacity Scheduler调度器以队列为单位划分资源。简单通俗来说，就是一个个队列有独立的资源，队列的结构和资源是可以进行配置的

　　　　优势：

　　　　　　层次化的队列设计：层次化的管理，可以更容易管理，更合理分配和限制资源的使用

　　　　　　容量保证：每个队列上都可以设置一个资源的占比，保证每一个队列都不会占用整个集群的资源

　　　　　　安全：每个队列有严格的访问控制，用户只能向自己的队列里面提交任务，而且不能修改或者访问其它队列的任务

　　　　　　弹性分配：空闲的资源可以被分配给任何队列，当多个队列出现争用的时候，则会按照权重比例进行平衡

　　　　3.Fair Scheduler概述

　　　　　　Fair Scheduler叫做公平调度，提供了YARN应用程序公平地共享大型集群中资源地另一种方式，使所有应用在平均情况下随着时间的流逝可以获得相等的资源份额

　　　　　　Fair Scheduler设计目标是为所有的应用分配公平的资源(对公平的定义通过参数来设置)

　　　　　　公平调度可以在多个队列间工作，允许资源共享和抢占

　　　　优势：

　　　　　　分层队列：队列可以按层次结构排列以划分资源，并可以配置权重以按特定比例共享集群

　　　　　　基于用户或组的队列映射：可以根据提交任务的用户名或组来分配队列，如果任务指定了一个队列，则在该队列中提交任务

　　　　　　资源抢占：根据应用的配置，抢占和分配资源可以是友好的或是强制的，默认不启动资源抢占。

　　　　　　保证最小配额：可以设置队列最小资源，允许将保证的最小份额分配给队列，保证用户可以启动任务。当队列不能满足最小资源时，可以从其它队列抢占。当队列资源使用不完时，可以给其它队列使用，这对于确保某些队列用户，组或生产应用始终获得足够的资源

　　　　　　允许资源共享：即当一个应用运行时，如果其它队列没有任务执行，则可以使用其它队列，当其它队列有应用需要资源时再将占用的队列释放出来，所有的应用都从资源队列中分配资源

　　　　　　默认不限制每个队列和用户可以同时运行应用的数据，可以配置来限制队列和用户并行执行的应用数量，限制并行执行应用数量不会导致任务提交失败，超出的应用会在队列中等待

　　测试集群：用户hadoop，密码：123456

　6.在node上，使用软件自带的shell脚本一键启动，前提：配置好机器之间的ssh免密登录和slaves文件

　　HDFS集群：start-dfs.sh　　stop-dfs.sh

　　YARN集群：start-yarn.sh　　stop-yarn.sh

　　Hadoop集群：start-all.sh　　stop-all.sh

　7.启动完毕之后可以使用jps命令查看进程是否启动成功

　　hadoop启动日志路径：/opt/hadoop/hadoop/logs

　　(集群同步时间：ntpdate ntp5.aliyun.com)

　8.HDFS集群web页面查看地址(9870)：http://namenode_host:端口号——http://192.168.182.129:50070（在hdfs-site.xml配置文件中）

　　YARN集群web页面查看地址(8088)：http://resourcemanager_host:端口号——http://192.168.182.129:8088（在yarn-site.xml配置文件中）

　9.HDFS操作

　　shell命令操作：
　　　　hadoop fs -mkdir /itcast

　　　　hadoop fs -put 1.txt(文件名) /itcast

　　　　hadoop fs -ls /

　　Web UI页面操作

　10.hadoop自带功能测试

　　1.pi计算测试

　　　　切换目录：/opt/hadoop/hadoop/share/hadoop/mapreduce

　　　　执行命令：hadoop jar hadoop-mapreduce-examples-2.8.3.jar pi 5 5

　　　　查看YARN集群web页面刷新结果

　　2.wordcount计算测试

　　　　vim hello.txt　　

　　　　hadoop fs -mkdir -p /wordcount/input

　　　　hadoop fs -put hello.txt /wordcount/input

　　　　hadoop jar hadoop-mapreduce-examples-2.8.3.jar wordcount /wordcount/input /wordcount/output

　　　　查看YARN集群web页面刷新结果

posted @ 2022-05-29 23:02 修心的博客阅读(2047) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Spark简单介绍

· hive介绍

· Hadoop

· hadoop学习

· hadoop知识点总结

公告

昵称：修心的博客
园龄： 4年9个月
粉丝： 1
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

wxd131488

hadoop介绍

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜