mr on yarn架构

提交作业
- ①程序打成jar包，在客户端运行hadoop jar命令，提交job到集群运行
- job.waitForCompletion(true)中调用Job的submit()，此方法中调用JobSubmitter的submitJobInternal()方法；
  - ②submitClient.getNewJobID()向resourcemanager请求一个MR作业id
  - 检查输出目录：如果没有指定输出目录或者目录已经存在，则报错
  - 计算作业分片；若无法计算分片，也会报错
  - ③运行作业的相关资源，如作业的jar包、配置文件、输入分片，被上传到HDFS上一个以作业ID命名的目录（jar包副本默认为10，运行作业的任务，如map任务、reduce任务时，可从这10个副本读取jar包）
  - ④调用resourcemanager的submitApplication()提交作业
- 客户端每秒查询一下作业的进度（map 50% reduce 0%），进度如有变化，则在控制台打印进度报告；
- 作业如果成功执行完成，则打印相关的计数器
- 但如果失败，在控制台打印导致作业失败的原因
初始化作业
- 当ResourceManager(一下简称RM)收到了submitApplication()方法的调用通知后，请求传递给RM的scheduler（调度器）；调度器分配container（容器）
- ⑤a RM与指定的NodeManager通信，通知NodeManager启动容器；NodeManager收到通知后，创建占据特定资源的container；
- ⑤b 然后在container中运行MRAppMaster进程
- ⑥MRAppMaster需要接受任务（各map任务、reduce任务的）的进度、完成报告，所以appMaster需要创建多个簿记对象，记录这些信息
- ⑦从HDFS获得client计算出的输入分片split
  - 每个分片split创建一个map任务
  - 通过 mapreduce.job.reduces 属性值(编程时，jog.setNumReduceTasks()指定)，知道当前MR要创建多少个reduce任务
  - 每个任务(map、reduce)有task id
Task 任务分配
- 如果小作业，appMaster会以==uberized==的方式运行此MR作业；appMaster会决定在它的JVM中顺序执行此MR的任务；
  - 原因是，若每个任务运行在一个单独的JVM时，都需要单独启动JVM，分配资源（内存、CPU），需要时间；多个JVM中的任务再在各自的JVM中并行运行
  - 若将所有任务在appMaster的JVM中==顺序执行==的话，更高效，那么appMaster就会这么做，任务作为uber任务运行
  - 小作业判断依据：①小于10个map任务；②只有一个reduce任务；③MR输入大小小于一个HDFS块大小
  - 如何开启uber?设置属性 mapreduce.job.ubertask.enable 值为true
  - 在运行任何task之前，appMaster调用setupJob()方法，创建OutputCommitter，创建作业的最终输出目录（一般为HDFS上的目录）及任务输出的临时目录（如map任务的中间结果输出目录）
- ⑧若作业不以uber任务方式运行，那么appMaster会为作业中的每一个任务（map任务、reduce任务）向RM请求container
  - 由于reduce任务在进入排序阶段之前，所有的map任务必须执行完成；所以，为map任务申请容器要优先于为reduce任务申请容器
  - 5%的map任务执行完成后，才开始为reduce任务申请容器
  - 为map任务申请容器时，遵循==数据本地化==，调度器尽量将容器调度在map任务的输入分片所在的节点上（==移动计算，不移动数据==）
  - reduce任务能在集群任意计算节点运行
  - 默认情况下，为每个map任务、reduce任务分配1G内存、1个虚拟内核，由属性决定mapreduce.map.memory.mb、mapreduce.reduce.memory.mb、mapreduce.map.cpu.vcores、mapreduce.reduce.reduce.cpu.vcores
Task 任务执行
- 当调度器为当前任务分配了一个NodeManager（暂且称之为NM01）的容器，并将此信息传递给appMaster后；appMaster与NM01通信，告知NM01启动一个容器，并此容器占据特定的资源量（内存、CPU）
- NM01收到消息后，启动容器，此容器占据指定的资源量
- 容器中运行YarnChild，由YarnChild运行当前任务（map、reduce）
- ⑩在容器中运行任务之前，先将运行任务需要的资源拉取到本地，如作业的JAR文件、配置文件、分布式缓存中的文件
作业运行进度与状态更新
- 作业job以及它的每个task都有状态（running、successfully completed、failed），当前任务的运行进度、作业计数器
- 任务在运行期间，每隔==3秒==向appMaster汇报执行进度、状态（包括计数器）
- appMaster汇总目前运行的所有任务的上报的结果
- 客户端每隔1秒，轮询访问appMaster获得作业执行的最新状态，若有改变，则在控制台打印出来
完成作业
- appMaster收到最后一个任务完成的报告后，将作业状态设置为成功
- 客户端轮询appMaster查询进度时，发现作业执行成功，程序从waitForCompletion()退出
- 作业的所有统计信息打印在控制台
- appMaster及运行任务的容器，清理中间的输出结果，释放资源
- 作业信息被历史服务器保存，留待以后用户查询

posted @ 2021-12-02 23:15 unknowspeople 阅读(49) 评论(0) 编辑收藏举报

刷新页面返回顶部

unknowspeople

's sky

mr on yarn架构

公告