05 2022 档案

摘要:yarn的基础架构 mr-yarn-hdfs任务提交全流程图解 yarn三种调度器的区别 阅读全文
posted @ 2022-05-23 11:12 习惯了蓝 阅读(31) 评论(0) 推荐(0) 编辑
摘要:mapreduce工作流程分成maptask和reducetask俩个阶段。其实就类似于spark和flink中的map算子和 reduce算子 主要关注这几个方面 逻辑切片如何决定maptask并行度 maptask计算开始前,job如何提交然后知道将文件分成多少逻辑切片 fileinputFor 阅读全文
posted @ 2022-05-22 20:37 习惯了蓝 阅读(28) 评论(0) 推荐(0) 编辑
摘要:namenode和secondary namenode中涉及到的主要概念就是 1 元数据 2 fsimage (备份元数据) 3 edits (操作日志) namenode为了快速响应随机访问,所以把元数据放在内存,同时为了防止断电导致元数据丢失,在磁盘上存在一个备份元数据的fsimage。当在内存 阅读全文
posted @ 2022-05-22 17:13 习惯了蓝 阅读(219) 评论(0) 推荐(0) 编辑
摘要:hdfs上的文件是以块为单位进行存储的 大小一般设置为128m,不能太小,也不能太大。 详细情况看以下链接 hdfs块大小设置原因 hdfs的写数据流程 (1)客户端向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。 (2)NameNode 返回是否可以上 阅读全文
posted @ 2022-05-21 20:52 习惯了蓝 阅读(323) 评论(0) 推荐(0) 编辑
摘要:hdfs组成架构有四个组件,分别是namenode,datanode,secondary namenode。 NameNode(nn):就是Master,它 是一个主管、管理者。 (1)管理HDFS的名称空间; (2)配置副本策略; (3)管理数据块(Block)映射信息; (4)处理客户端读写请求 阅读全文
posted @ 2022-05-21 19:41 习惯了蓝 阅读(215) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示