摘要: 基本架构 概念解析 1. ResourceManager ResourceManager是master上的进程,负责整个分布式系统的资源管理和调度。他会处理来自client端的请求(包括提交作业/杀死作业);启动/监控Application Master;监控NodeManager的情况,比如可能挂 阅读全文
posted @ 2020-11-09 17:23 bug开发工程师 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 1、概述 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给Hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namen 阅读全文
posted @ 2020-11-09 10:56 bug开发工程师 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 1、HDFS写流程 客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本 1)跟NN通信 阅读全文
posted @ 2020-11-09 10:16 bug开发工程师 阅读(150) 评论(0) 推荐(0) 编辑