随笔档案「2022年5月」 - 习惯了蓝

yarn架构整理以及 hdfs yarn mapreduce三者整体的运行流程以及yarn三种调度器的区别

摘要：yarn的基础架构 mr-yarn-hdfs任务提交全流程图解 yarn三种调度器的区别阅读全文

posted @ 2022-05-23 11:12 习惯了蓝阅读(39) 评论(0) 推荐(0)

摘要：mapreduce工作流程分成maptask和reducetask俩个阶段。其实就类似于spark和flink中的map算子和 reduce算子主要关注这几个方面逻辑切片如何决定maptask并行度 maptask计算开始前，job如何提交然后知道将文件分成多少逻辑切片 fileinputFor 阅读全文

posted @ 2022-05-22 20:37 习惯了蓝阅读(47) 评论(0) 推荐(0)

namenode和secondary namenode之间的工作原理整理，以及datanode 的工作机制和原理

摘要：namenode和secondary namenode中涉及到的主要概念就是 1 元数据 2 fsimage (备份元数据) 3 edits （操作日志） namenode为了快速响应随机访问，所以把元数据放在内存，同时为了防止断电导致元数据丢失，在磁盘上存在一个备份元数据的fsimage。当在内存阅读全文

posted @ 2022-05-22 17:13 习惯了蓝阅读(262) 评论(0) 推荐(0)

hdfs的块大小以及hdfs的读写流程

摘要：hdfs上的文件是以块为单位进行存储的大小一般设置为128m，不能太小，也不能太大。详细情况看以下链接 hdfs块大小设置原因 hdfs的写数据流程（1）客户端向 NameNode 请求上传文件，NameNode 检查目标文件是否已存在，父目录是否存在。（2）NameNode 返回是否可以上阅读全文

posted @ 2022-05-21 20:52 习惯了蓝阅读(370) 评论(0) 推荐(0)

hdfs架构整理

摘要：hdfs组成架构有四个组件，分别是namenode,datanode,secondary namenode。 NameNode（nn）：就是Master，它是一个主管、管理者。（1）管理HDFS的名称空间；（2）配置副本策略；（3）管理数据块（Block）映射信息；（4）处理客户端读写请求阅读全文

posted @ 2022-05-21 19:41 习惯了蓝阅读(276) 评论(0) 推荐(0)

习惯了蓝

05 2022 档案

公告