摘要:
HDFS辅助工具-文件归档工具archive 1、背景: HDFS并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode占用内存 如果存在大量的小文件,它们会吃掉NameNode节点的大量内存。如下所示,模拟小文件场景: 2、概述: Hadoop Archi 阅读全文
摘要:
HDFS辅助工具-跨集群复制数据工具distcp 概述 DistCp是Hadoop中的一种工具,在hadoop-tools工程下,作为独立子工程存在。 定位用于数据迁移,定期在集群之间和集群内部备份数据 在备份过程中,每次运行DistCP都称为一个备份周期。尽管性能相对较慢,但它的普及程度越来越高 阅读全文
摘要:
HDFS分布式文件系统 一、HDFS概念 HDFS介绍 HDFS是 Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。 分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的 阅读全文
摘要:
HDFS的垃圾回收机制 1. 垃圾桶机制解析 每一个文件系统都会有垃圾桶机制,便于将删除的数据回收到垃圾桶里面去,避免某些误操作删除一些重要文件。回收到垃圾桶里里面的资料数据,都可以进行恢复。 2. 垃圾桶机制配置 HDFS的垃圾回收的默认配置属性为0,也就是说,如果不小心误删除了某样东西,那么这个 阅读全文
摘要:
HDFS 安全模式 安全模式概述: 安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求,是一种保护机制,用于保证集群中的数据块的安全性。 在NameNode主节点启动时,HDFS首先进入安全模式,集群会开始检查数据块的完整性。DataNode在 阅读全文
摘要:
HDFS shell 操作 一、HDFS shell命令行解释说明 介绍 命令行界面(英语:command-line interface,缩写:CLI),是指用户通过键盘输入指令,计算机接收到指令后,予以执行一种人际交互方式。 Hadoop提供了文件系统的shell命令行客户端: hadoop fs 阅读全文
摘要:
Hadoop集群搭建 Hadoop集群简介 Hadoop集群包括两个集群:HDFS集群、YARN集群 两个集群逻辑上分离、通常物理上在一起 两个集群都是标准的主从架构集群 HDFS集群海量数据数据的存储,集群中的角色主要有: NameNode、DataNode、SecondaryNameNode Y 阅读全文
摘要:
Hadoop3.3.0--Linux编译安装 基础环境:Centos 7.7 编译环境软件安装目录 mkdir -p /export/server Hadoop编译安装(选做) 安装编译相关的依赖 yum install gcc gcc-c++ make autoconf automake libt 阅读全文
摘要:
Hadoop jobhistory服务 概述 当MR程序在YARN上运行,YARN不会永久记录MR作业的日志信息,在YARN集群重启之后日志信息会消失; MR程序分布式执行也不利于日志的集中查看,开启jobhistory服务再配合YARN日志聚集功能可以实现集中查询日志 jobhistory用来记录 阅读全文