05 2022 档案
摘要:yarn的基础架构 mr-yarn-hdfs任务提交全流程图解 yarn三种调度器的区别
阅读全文
摘要:mapreduce工作流程分成maptask和reducetask俩个阶段。其实就类似于spark和flink中的map算子和 reduce算子 主要关注这几个方面 逻辑切片如何决定maptask并行度 maptask计算开始前,job如何提交然后知道将文件分成多少逻辑切片 fileinputFor
阅读全文
摘要:namenode和secondary namenode中涉及到的主要概念就是 1 元数据 2 fsimage (备份元数据) 3 edits (操作日志) namenode为了快速响应随机访问,所以把元数据放在内存,同时为了防止断电导致元数据丢失,在磁盘上存在一个备份元数据的fsimage。当在内存
阅读全文
摘要:hdfs上的文件是以块为单位进行存储的 大小一般设置为128m,不能太小,也不能太大。 详细情况看以下链接 hdfs块大小设置原因 hdfs的写数据流程 (1)客户端向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。 (2)NameNode 返回是否可以上
阅读全文
摘要:hdfs组成架构有四个组件,分别是namenode,datanode,secondary namenode。 NameNode(nn):就是Master,它 是一个主管、管理者。 (1)管理HDFS的名称空间; (2)配置副本策略; (3)管理数据块(Block)映射信息; (4)处理客户端读写请求
阅读全文