随笔分类 - HDFS
摘要:HDFS中的NameNode的HA怎么实现?(一言以蔽之) 在Hadoop集群中配置并启动两个NameNode进程,一个作为Active节点对外提供服务,另一个作为Standby的节点,两个NameNode启动的时候都会在Zookeeper中创建一个临时有序的节点,Zookeeper会取最小的节点对
阅读全文
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/qq_35641192/article/details/80303879 版权声明:本文为CSDN博主「JokerDa」的原创文章,遵循 CC
阅读全文
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/weixin_37838429/article/details/81674765————————————————版权声明:本文为CSDN博主「
阅读全文
摘要:创建文件 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.ha
阅读全文
摘要:HDFS的Shell操作 1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2.命令大全 [Tesla@hadoop102 hadoop-2.7.2]$ bin/hadoop fs [-appendToFile <localsrc>
阅读全文
摘要:1、2、 客户端向NameNode发起创建文件的请求,在NameNode上创建一个文件名,并且返回一个输出流 3、客户端向输出流发起写入数据的请求 4、输出流向NameNode请求写数据,NameNode根据请求的数据的大小,给数据分块,并且返回指定数据块对应的DataNode 5、 6、客户端拿到
阅读全文
摘要:hdfs产生背景: 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDFS定义 Hdfs(hadoop distribute
阅读全文
摘要:HDFS是英文Hadoop Distributed File System的缩写,中文翻译为Hadoop分布式文件系统,它是实现分布式存储的一个系统,所以分布式存储有的特点,HDFS都会有,HDFS的架构图: 上图中HDFS的NameNode其实就是对应着分布式存储的Storage master,主
阅读全文
摘要:HDFS日志查看的两种方式:HDFS安装目录中的logs中和HDFS WEB UI上 HDFS安装目录中的logs中看日志 我们分别在master、slave1以及slave2上安装了HDFS,只是每台机器上安装的角色不一样而已。 在master安装的是NameNode和SecondaryNameN
阅读全文
摘要:JVM的启动 绝大部分的大数据技术都是建立在Java的JVM之上的。所以,我们对JVM的启动的了解是非常有必要的,当然,我们也不用非常深入的去了解这个,我们只需要把握两个非常关键的点即可: 当使用java命令启动了一个JVM之后,执行的是我们指定的主类中的main方法中的程序代码,这个方法里面的程序
阅读全文
摘要:我们在分布式存储原理总结中了解了分布式存储的三大特点: HDFS作为分布式存储的实现,肯定也具有上面3个特点。 HDFS分布式存储: 在HDFS中,数据块默认的大小是128M,当我们往HDFS上上传一个300多M的文件的时候,那么这个文件会被分成3个数据块: 所有的数据块是分布式的存储在所有的Dat
阅读全文
摘要:在NameNode中的Namespace管理层是负责管理整个HDFS集群文件系统的目录树以及文件与数据块的映射关系。以下就是Namespace的内存结构: 以上是一棵文件目录树,可见Namespace本身其实是一棵巨大的树。在这棵树中INodeFile表示文件,INodeDirectory表示文件目
阅读全文
摘要:DataNode心跳机制的作用讲解了DataNode的三个作用: 以上第1和第2个动作都是在DataNode启动的时候发生的,register的步骤主要功能是使得这个DataNode成为HDFS集群中的成员,DataNode注册成功后,DataNode会将它管理的所有的数据块信息,通过blockRe
阅读全文
摘要:NameNode堆内存估算 在HDFS中,数据和元数据是分开存储的,数据文件被分割成若干个数据块,每一个数据块默认备份3份,然后分布式的存储在所有的DataNode上,元数据会常驻在NameNode的内存中,而且随着数据量的增加,在NameNode中内存的元数据的大小也会随着增加,那么这个时候对Na
阅读全文
摘要:下图是HDFS的架构: 从上图中可以知道,HDFS包含了NameNode、DataNode以及Client三个角色,当我们的HDFS没有配置HA的时候,那还有一个角色就是SecondaryNameNode,这四个角色都是基于JVM之上的Java进程。既然是Java进程,那我们肯定可以调整这四个角色使
阅读全文
摘要:在HDFS集群的运维过程中,肯定会遇到DataNode的新增和删除,即上线与下线。这篇文章就详细讲解下DataNode的上线和下线的过程。 背景 在我们的微职位视频课程中,我们已经安装了3个节点的HDFS集群,master机器上安装了NameNode和SecondaryNameNode角色,slav
阅读全文
摘要:在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。 我们在master机器上执行hdfs fsck就可以看到这个命令的用法。 查看文件目录的健康信息 执行如下的命令: 其中有一个比较重要的信息,就是Corrupt blocks,表示损坏的
阅读全文
摘要:我们在安装HDFS的时候,我们在hdfs-site.xml配置过DataNode的数据存储的文件目录,如下: 目录/home/hadoop-twq/bigdata/dfs/data就是DataNode存放数据的地方,这个目录对应的存储介质就是普通的磁盘(DISK)。除了普通磁盘,存储介质其实还有固态
阅读全文