摘要:
一、DataNode工作机制 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件:一个是数据本身,另一个是元数据包括数据块的长度、块数据校验和,以及时间戳。 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 心跳是每3秒一次 阅读全文
摘要:
一、NN和2NN的工作机制 NameNode元数据的存储: NameNode中存储的元数据经常需要被随机访问,还要响应客户请求,这样效率必然会很低。因此,元数据需要存放在内存中,但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。 这样又会带来 阅读全文
摘要:
一、HDFS写数据流程 1.1 剖析文件写入 HDFS写数据流程,如图所示: 客户端通过DIstributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否存在,父目录是否存在 NameNode返回是否可以上传 客户端对上传文件进行拆分为块,客户端请求第一 阅读全文
摘要:
一、HDFS概述 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种 1.1 HDFS定义 HDFS (Hadoop Distrib 阅读全文
摘要:
一、本地运行模式 1.1 官方Grep案例 ① 创建在hadoop-2.7.2文件下面创建一个input文件夹 [root@hadoop103 hadoop-2.7.2]# mkdir input ② 将Hadoop的xml配置文件复制到input [root@hadoop103 hadoop-2. 阅读全文