09 2019 档案
摘要:hadoop2.7.2 MapReduce Job提交源码及切片源码分析 1. 首先从 函数进入 2. 进入 方法 3. 进入 方法 MapReduce作业提交时连接集群通过Job的Connect方法实现,它实际上是构造集群Cluster实例cluster cluster是连接MapReduce集群
阅读全文
摘要:DataNode工作机制 1. 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2. DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 3. D
阅读全文
摘要:NN与2NN工作机制 思考:NameNode中的元数据是存储在哪里的? 假设存储在NameNode节点的硬盘中,因为经常需要随机访问和响应客户请求,必然效率太低,所以是存储在内存中的 但是,如果存储在内存中,一旦断电,元数据丢失,整个集群便无法工作,因此会在硬盘中产生备份元数据的Fsimage 但是
阅读全文
摘要:产生背景及定义 HDFS:分布式文件系统,用于存储文件,主要特点在于其分布式,即有很多服务器联合起来实现其功能,集群中的服务器各有各的角色 随着数据量越来越大,一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是管理和维护极不方便,于是迫切 需要一种系统来管理多台机器上的文件
阅读全文