摘要:
小文件治理 思考一个问题:无论存储大文件还是小文件,都会产生元数据,如果有很多小文件,是否划算? 不划算,每个文件、目录、块都大概有150字节的元数据,文件数量的限制也由namenode内存大小决定,如果小文件过多则会造成namenode的压力过大,且HDFS能存储的数据总量也会变小。 小文件治理的 阅读全文
摘要:
datanode详解 datanode工作机制 1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据。元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上 阅读全文
摘要:
🌈NameNode和SecondaryNameNode的工作机制 如何快速检索元数据? NameNode主要负责集群当中的元数据信息管理,而且元数据信息需要经常随机访问,因为元数据信息必须高效的检索,那么如何保证namenode快速检索呢??元数据信息保存在哪里能够快速检索呢??如何保证元数据的持 阅读全文
摘要:
🌈hdfs写入流程(面试重点) 一个文件上传到hdfs文件系统的简略过程 1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 2)NameNode返回是否可以上传。 3)客户端请求第一个 Block 阅读全文
摘要:
hdfs的JavaAPI开发 windows安装hadoop 解压CDH版本的在windows系统上运行的Hadoop安装包,解压路径不能有中文或者空格 在windows当中配置hadoop环境变量 将hadoop.dll文件拷贝到C:\Windows\System32 创建Maven工程并导入ja 阅读全文
摘要:
hdfs的shell命令操作 hdfs的shell命令操作的主要类型: 1、对hdfs的操作命令 2、获得一些配置相关的命令 3、管理员相关的命令 4、文件系统检查相关的命令 hdfs命令(对hdfs的基础操作) HDFS命令有两种风格,hadoop fs开头的和hdfs dfs开头的,两种命令均可 阅读全文
摘要:
hdfs功能详解 `HDFS(hadoop distributed filesystem)由四部分组成,HDFS Client、NameNode、DataNode和Secondary NameNode。HDFS是一个主/从(Mater/Slave)体系结构,HDFS集群拥有一个NameNode和一些 阅读全文
摘要:
Hadoop发展起源 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。 阅读全文
摘要:
hadoop环境搭建 安装虚拟机 下载镜像文件 下载centOS7镜像文件 新建文件夹 新建用于放置虚拟机上不同系统的文件,方便管理。 新建node01节点 在windows某个盘上创建一个文件夹,用于放置node01节点虚拟机文件。命名可以为:大数据开发环境 开启node01节点 分区选择自动分区 阅读全文
摘要:
Tomcat基础 这里的Tomcat基础来自另一个教程:https://www.bilibili.com/video/BV1Y7411K7zz?p=103 JavaWeb概念 a)什么是 JavaWeb JavaWeb 是指,所有通过 Java 语言编写可以通过浏览器访问的程序的总称,叫 JavaW 阅读全文