03 2024 档案

摘要:HDFS辅助工具-文件归档工具archive 1、背景: HDFS并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode占用内存 如果存在大量的小文件,它们会吃掉NameNode节点的大量内存。如下所示,模拟小文件场景: 2、概述: Hadoop Archi 阅读全文
posted @ 2024-03-18 13:52 七落安歌 阅读(65) 评论(0) 推荐(0) 编辑
摘要:HDFS辅助工具-跨集群复制数据工具distcp 概述 DistCp是Hadoop中的一种工具,在hadoop-tools工程下,作为独立子工程存在。 定位用于数据迁移,定期在集群之间和集群内部备份数据 在备份过程中,每次运行DistCP都称为一个备份周期。尽管性能相对较慢,但它的普及程度越来越高 阅读全文
posted @ 2024-03-18 13:52 七落安歌 阅读(375) 评论(0) 推荐(0) 编辑
摘要:HDFS分布式文件系统 一、HDFS概念 HDFS介绍 HDFS是 Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。 分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的 阅读全文
posted @ 2024-03-18 13:52 七落安歌 阅读(170) 评论(0) 推荐(0) 编辑
摘要:HDFS的垃圾回收机制 1. 垃圾桶机制解析 每一个文件系统都会有垃圾桶机制,便于将删除的数据回收到垃圾桶里面去,避免某些误操作删除一些重要文件。回收到垃圾桶里里面的资料数据,都可以进行恢复。 2. 垃圾桶机制配置 HDFS的垃圾回收的默认配置属性为0,也就是说,如果不小心误删除了某样东西,那么这个 阅读全文
posted @ 2024-03-18 13:52 七落安歌 阅读(239) 评论(0) 推荐(0) 编辑
摘要:HDFS 安全模式 安全模式概述: 安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求,是一种保护机制,用于保证集群中的数据块的安全性。 在NameNode主节点启动时,HDFS首先进入安全模式,集群会开始检查数据块的完整性。DataNode在 阅读全文
posted @ 2024-03-18 13:52 七落安歌 阅读(127) 评论(0) 推荐(0) 编辑
摘要:HDFS shell 操作 一、HDFS shell命令行解释说明 介绍 命令行界面(英语:command-line interface,缩写:CLI),是指用户通过键盘输入指令,计算机接收到指令后,予以执行一种人际交互方式。 Hadoop提供了文件系统的shell命令行客户端: hadoop fs 阅读全文
posted @ 2024-03-18 13:52 七落安歌 阅读(199) 评论(0) 推荐(0) 编辑
摘要:Hadoop集群搭建 Hadoop集群简介 Hadoop集群包括两个集群:HDFS集群、YARN集群 两个集群逻辑上分离、通常物理上在一起 两个集群都是标准的主从架构集群 HDFS集群海量数据数据的存储,集群中的角色主要有: NameNode、DataNode、SecondaryNameNode Y 阅读全文
posted @ 2024-03-18 13:52 七落安歌 阅读(535) 评论(0) 推荐(0) 编辑
摘要:Hadoop3.3.0--Linux编译安装 基础环境:Centos 7.7 编译环境软件安装目录 mkdir -p /export/server Hadoop编译安装(选做) 安装编译相关的依赖 yum install gcc gcc-c++ make autoconf automake libt 阅读全文
posted @ 2024-03-18 13:52 七落安歌 阅读(14) 评论(0) 推荐(0) 编辑
摘要:Hadoop jobhistory服务 概述 当MR程序在YARN上运行,YARN不会永久记录MR作业的日志信息,在YARN集群重启之后日志信息会消失; MR程序分布式执行也不利于日志的集中查看,开启jobhistory服务再配合YARN日志聚集功能可以实现集中查询日志 jobhistory用来记录 阅读全文
posted @ 2024-03-18 13:52 七落安歌 阅读(133) 评论(0) 推荐(0) 编辑
摘要:zookeeper 一、zookeeper概述 Apache Zookeeper(简称zk)是一个提供分布式协调服务的开源框架 zk主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:状态同步服务、集群选举管理、分布式应用配置项的管理等。 zookeeper本质上是一个分布式的小文件存储系统, 阅读全文
posted @ 2024-03-14 20:04 七落安歌 阅读(156) 评论(0) 推荐(0) 编辑
摘要:大数据集群服务器环境配置与搭建 分布式(Distributed)、集群(Cluster) 定义 共同与区别 分布式、集群的共同点是:多台机器。与之对立的叫做单机。 因此口语中混淆两者概念的时候都是相对于单机来说的。 举例: 集群架构 主从架构 主角色:master leader 从角色:slave 阅读全文
posted @ 2024-03-14 19:44 七落安歌 阅读(148) 评论(0) 推荐(0) 编辑
摘要:vim编辑器 vi/vim编辑器 vi是一款很多unix及其延伸系统内置的文本编辑器,具有强大的文本编辑能力。 vim是从vi发展出来的一个文本编辑器,可以理解为vi编辑器的增强版。vim中代码补完、编译及错误跳转等方便编程的功能特别丰富。 vi/vim编辑器的核心设计思想:让程序员的手指始终保持在 阅读全文
posted @ 2024-03-14 19:44 七落安歌 阅读(35) 评论(0) 推荐(0) 编辑
摘要:SSH免密登录 概述 在集群环境中,经常需要在不同机器之间进行跳转,开启免密登录可以提高效率,避免频繁输入密码验证。 此外,免密登录的环境也可以满足通过脚本远程登录各个机器实现各种自动操作,如:一键启动、一键安装等。 免密登录的实现是基于SSH协议实现的。 原理 两台机器之间实现免密登录,可以将一台 阅读全文
posted @ 2024-03-14 19:44 七落安歌 阅读(82) 评论(0) 推荐(0) 编辑
摘要:Linux用户与权限 用户、用户组 概述 Linux是多用户多任务操作系统,支持多个用户在同一时间内登陆,不同用户执行不同的任务,并且互不影响。 不同用户具有不同的操作权限,每个用户在权限允许的范围内完成不同的任务。 权限最高的用户叫做root,称之为超级管理员用户。 用户组是具有相同特征用户的逻辑 阅读全文
posted @ 2024-03-14 19:44 七落安歌 阅读(234) 评论(0) 推荐(0) 编辑
摘要:文件权限管理命令 概述 文件权限分为3种:读r、写w、执行x; 文件归属分为3类:user、group、other; 为了便于权限管理,每个权限都有对应的数字: 0表示没有权限、4表示读权限、2表示写权限、1表示执行权限 方式1:数字表示法 chmod 777 -R 文件|文件夹 其中-R用于递归修 阅读全文
posted @ 2024-03-14 19:44 七落安歌 阅读(148) 评论(0) 推荐(0) 编辑
摘要:Linux软件安装 rpm包管理器 概述 rpm是RH系列Linux系统的包管理器(Red-Hat Package Manager),也是RH系列安装的软件包后缀名。 当下这套标准已经扩大成为了行业标准,不仅仅局限于RH系列Linux系统。 rpm操作指的是使用rpm命令进行软件的查看、安装、卸载。 阅读全文
posted @ 2024-03-14 19:44 七落安歌 阅读(17) 评论(0) 推荐(0) 编辑
摘要:Linux常用系统管理命令 时间、日期查看 date命令:用来显示或设定系统的日期与时间,在显示方面,使用者可以设定欲显示的格式,格式设定为一个加号后接数个标记。 cal(calendar)命令:用于用于显示当前或者指定日期的公历。 [root@node1 linux02]# date Tue Ma 阅读全文
posted @ 2024-03-14 19:44 七落安歌 阅读(12) 评论(0) 推荐(0) 编辑
摘要:Linux常用命令 一、Linux文件系统 文件系统是操作系统用于明确存储设备(如磁盘)上的文件的方法和数据结构;即在存储设备上组织文件的方法。 操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统。 文件系统的结构通常叫做目录树结构,从/根目录开始。 Linux号称“万物皆文件 阅读全文
posted @ 2024-03-14 19:44 七落安歌 阅读(17) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示