HDFS - 随笔分类 - 花未全开*月未圆

NameNode的HA

摘要：HDFS中的NameNode的HA怎么实现？（一言以蔽之）在Hadoop集群中配置并启动两个NameNode进程，一个作为Active节点对外提供服务，另一个作为Standby的节点，两个NameNode启动的时候都会在Zookeeper中创建一个临时有序的节点，Zookeeper会取最小的节点对阅读全文

posted @ 2019-11-29 15:02 花未全开*月未圆阅读(1099) 评论(0) 推荐(0)

DataNode 工作机制

posted @ 2019-11-29 14:48 花未全开*月未圆阅读(290) 评论(0) 推荐(0)

NameNode和SecondaryNameNode

posted @ 2019-11-29 14:31 花未全开*月未圆阅读(368) 评论(0) 推荐(0)

java操作HDFS

摘要：创建文件 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.ha 阅读全文

posted @ 2019-11-29 14:18 花未全开*月未圆阅读(444) 评论(0) 推荐(0)

HDFS的Shell、java操作

摘要：HDFS的Shell操作 1．基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2．命令大全 [Tesla@hadoop102 hadoop-2.7.2]$ bin/hadoop fs [-appendToFile <localsrc> 阅读全文

posted @ 2019-11-29 14:13 花未全开*月未圆阅读(345) 评论(0) 推荐(0)

HDFS的读写流程

摘要：1、2、客户端向NameNode发起创建文件的请求，在NameNode上创建一个文件名，并且返回一个输出流 3、客户端向输出流发起写入数据的请求 4、输出流向NameNode请求写数据，NameNode根据请求的数据的大小，给数据分块，并且返回指定数据块对应的DataNode 5、 6、客户端拿到阅读全文

posted @ 2019-11-29 13:49 花未全开*月未圆阅读(192) 评论(0) 推荐(0)

HDFS 概述

摘要：hdfs产生背景：随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDFS定义 Hdfs（hadoop distribute 阅读全文

posted @ 2019-11-29 13:48 花未全开*月未圆阅读(209) 评论(0) 推荐(0)

几种访问HDFS文件的客户端的总结

摘要：HDFS是英文Hadoop Distributed File System的缩写，中文翻译为Hadoop分布式文件系统，它是实现分布式存储的一个系统，所以分布式存储有的特点，HDFS都会有，HDFS的架构图：上图中HDFS的NameNode其实就是对应着分布式存储的Storage master，主阅读全文

posted @ 2019-10-28 09:47 花未全开*月未圆阅读(14477) 评论(0) 推荐(2)

HDFS日志的查看总结

摘要：HDFS日志查看的两种方式：HDFS安装目录中的logs中和HDFS WEB UI上 HDFS安装目录中的logs中看日志我们分别在master、slave1以及slave2上安装了HDFS，只是每台机器上安装的角色不一样而已。在master安装的是NameNode和SecondaryNameN 阅读全文

posted @ 2019-09-08 19:51 花未全开*月未圆阅读(9859) 评论(0) 推荐(0)

分布式存储原理总结

摘要：JVM的启动绝大部分的大数据技术都是建立在Java的JVM之上的。所以，我们对JVM的启动的了解是非常有必要的，当然，我们也不用非常深入的去了解这个，我们只需要把握两个非常关键的点即可：当使用java命令启动了一个JVM之后，执行的是我们指定的主类中的main方法中的程序代码，这个方法里面的程序阅读全文

posted @ 2019-09-08 19:47 花未全开*月未圆阅读(3233) 评论(0) 推荐(0)

HDFS中的数据块(Block)

摘要：我们在分布式存储原理总结中了解了分布式存储的三大特点： HDFS作为分布式存储的实现，肯定也具有上面3个特点。 HDFS分布式存储：在HDFS中，数据块默认的大小是128M，当我们往HDFS上上传一个300多M的文件的时候，那么这个文件会被分成3个数据块：所有的数据块是分布式的存储在所有的Dat 阅读全文

posted @ 2019-09-08 19:43 花未全开*月未圆阅读(9568) 评论(0) 推荐(1)

HDFS的NameNode中的Namespace管理

摘要：在NameNode中的Namespace管理层是负责管理整个HDFS集群文件系统的目录树以及文件与数据块的映射关系。以下就是Namespace的内存结构：以上是一棵文件目录树，可见Namespace本身其实是一棵巨大的树。在这棵树中INodeFile表示文件，INodeDirectory表示文件目阅读全文

posted @ 2019-09-08 19:36 花未全开*月未圆阅读(2704) 评论(0) 推荐(0)

HDFS中DataNode的心跳机制

摘要：DataNode心跳机制的作用讲解了DataNode的三个作用：以上第1和第2个动作都是在DataNode启动的时候发生的，register的步骤主要功能是使得这个DataNode成为HDFS集群中的成员，DataNode注册成功后，DataNode会将它管理的所有的数据块信息，通过blockRe 阅读全文

posted @ 2019-09-08 19:34 花未全开*月未圆阅读(2705) 评论(0) 推荐(0)

HDFS的NameNode堆内存估算

摘要：NameNode堆内存估算在HDFS中，数据和元数据是分开存储的，数据文件被分割成若干个数据块，每一个数据块默认备份3份，然后分布式的存储在所有的DataNode上，元数据会常驻在NameNode的内存中，而且随着数据量的增加，在NameNode中内存的元数据的大小也会随着增加，那么这个时候对Na 阅读全文

posted @ 2019-09-08 19:31 花未全开*月未圆阅读(3780) 评论(0) 推荐(2)

HDFS内存配置

摘要：下图是HDFS的架构：从上图中可以知道，HDFS包含了NameNode、DataNode以及Client三个角色，当我们的HDFS没有配置HA的时候，那还有一个角色就是SecondaryNameNode，这四个角色都是基于JVM之上的Java进程。既然是Java进程，那我们肯定可以调整这四个角色使阅读全文

posted @ 2019-09-08 19:29 花未全开*月未圆阅读(5090) 评论(1) 推荐(1)

HDFS集群中DataNode的上线与下线

摘要：在HDFS集群的运维过程中，肯定会遇到DataNode的新增和删除，即上线与下线。这篇文章就详细讲解下DataNode的上线和下线的过程。背景在我们的微职位视频课程中，我们已经安装了3个节点的HDFS集群，master机器上安装了NameNode和SecondaryNameNode角色，slav 阅读全文

posted @ 2019-09-08 19:21 花未全开*月未圆阅读(3559) 评论(0) 推荐(1)

HDFS中的fsck命令(检查数据块是否健康)

摘要：在HDFS中，提供了fsck命令，用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。我们在master机器上执行hdfs fsck就可以看到这个命令的用法。查看文件目录的健康信息执行如下的命令：其中有一个比较重要的信息，就是Corrupt blocks，表示损坏的阅读全文

posted @ 2019-09-08 19:09 花未全开*月未圆阅读(14533) 评论(0) 推荐(0)

HDFS的存储策略

摘要：我们在安装HDFS的时候，我们在hdfs-site.xml配置过DataNode的数据存储的文件目录，如下：目录/home/hadoop-twq/bigdata/dfs/data就是DataNode存放数据的地方，这个目录对应的存储介质就是普通的磁盘(DISK)。除了普通磁盘，存储介质其实还有固态阅读全文

posted @ 2019-09-08 18:56 花未全开*月未圆阅读(3311) 评论(0) 推荐(2)

花未全开*月未圆

谦虚谨慎，戒骄戒躁，稳中求进，悟道行之

随笔分类 - HDFS

公告