随笔分类 -  hadoop

摘要:一、介绍 HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构,也就是hdfs-site.xml 阅读全文
posted @ 2022-07-02 10:33 一寸HUI 阅读(671) 评论(0) 推荐(0) 编辑
摘要:一、datanode之间的数据平衡 1.1、介绍 ​ Hadoop 分布式文件系统(Hadoop Distributed FilSystem),简称 HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是一个高容错性的文件系统,提供高吞吐量的数据 阅读全文
posted @ 2022-06-30 19:44 一寸HUI 阅读(3535) 评论(2) 推荐(0) 编辑
摘要:一、磁盘选择策略 1.1、介绍 在HDFS中,所有的数据都是存在各个DataNode上的.而这些DataNode上的数据都是存放于节点机器上的各个目录中的,而一般每个目录我们会对应到1个独立的盘,以便我们把机器的存储空间基本用上.这么多的节点,这么多块盘,HDFS在进行写操作时如何进行有效的磁盘选择 阅读全文
posted @ 2022-06-29 20:07 一寸HUI 阅读(1507) 评论(0) 推荐(1) 编辑
摘要:最近一直在学习hadoop的一些原理和优化,然后也做了一些实践,也有没有去做实践的,反正个人观点都记录下来 一、yarn的介绍 YARN的基本结构由一个ResourceManager与多个NodeManager组成。ResourceManager负责对NodeManager所持有的资源进行统一管理和 阅读全文
posted @ 2020-11-13 17:16 一寸HUI 阅读(3900) 评论(0) 推荐(1) 编辑
摘要:因为公司hadoop集群出现了一些瓶颈,在机器不增加的情况下需要进行优化,不管是存储还是处理性能,更合理的利用现有集群的资源,所以来学习了一波hadoop的rpc相关的知识和hdfs方面的知识,以及yarn相关的优化,学完之后确实明白了可以在哪些方面进行优化,可以对哪些参数进行调整,有点恍然大悟的感 阅读全文
posted @ 2020-11-10 15:16 一寸HUI 阅读(2229) 评论(0) 推荐(1) 编辑
摘要:前面在hadoop之yarn详解(基础架构篇)这篇文章提到了yarn的重要组件有ResourceManager,NodeManager,ApplicationMaster等,以及yarn调度作业的运行过程,Yarn将它的功能分为两层:负责资源管理的平台层,叶称为第一层调度,以及二级调度的框架来协调应 阅读全文
posted @ 2019-10-10 16:28 一寸HUI 阅读(2683) 评论(0) 推荐(1) 编辑
摘要:本篇主要对yarn命令进行阐述 一、yarn命令概述 使用语法: yarn [--config confdir] COMMAND [--loglevel loglevel] [GENERIC_OPTIONS] [COMMAND_OPTIONS] 二、命令详解 2.1、application 使用语法 阅读全文
posted @ 2019-10-08 16:40 一寸HUI 阅读(12997) 评论(0) 推荐(2) 编辑
摘要:本文主要从yarn的基础架构和yarn的作业执行流程进行阐述 一、yarn的概述 Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管理器系统,Yarn从hadoop 2引入,最初是为了改善MapReduce的实现,但是它具有通用性, 阅读全文
posted @ 2019-10-08 16:21 一寸HUI 阅读(26825) 评论(0) 推荐(12) 编辑
摘要:一、概述 优化前我们需要知道hadoop适合干什么活,适合什么场景,在工作中,我们要知道业务是怎样的,能才结合平台资源达到最有优化。除了这些我们当然还要知道mapreduce的执行过程,比如从文件的读取,map处理,shuffle过程,reduce处理,文件的输出或者存储。在工作中,往往平台的参数都 阅读全文
posted @ 2019-10-01 00:06 一寸HUI 阅读(4839) 评论(0) 推荐(1) 编辑
摘要:上篇文章hadoop之mapreduce详解(基础篇)我们了解了mapreduce的执行过程和shuffle过程,本篇文章主要从mapreduce的组件和输入输出方面进行阐述。 一、mapreduce作业控制模块以及其他功能 mapreduce包括作业控制模块,编程模型,数据处理引擎。这里我们重点阐 阅读全文
posted @ 2019-09-29 17:23 一寸HUI 阅读(3845) 评论(0) 推荐(2) 编辑
摘要:本篇文章主要从mapreduce运行作业的过程,shuffle,以及mapreduce作业失败的容错几个方面进行详解。 一、mapreduce作业运行过程 1.1、mapreduce介绍 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduc 阅读全文
posted @ 2019-09-27 20:16 一寸HUI 阅读(27492) 评论(0) 推荐(6) 编辑
摘要:本文主要从两个方面对hdfs进行阐述,第一就是hdfs的整个架构以及组成,第二就是hdfs文件的读写流程。 一、HDFS概述 标题中提到hdfs(Hadoop Distribute File System)是分布式文件系统 分布式文件系统 distributed file system 是指文件系统 阅读全文
posted @ 2019-09-25 20:33 一寸HUI 阅读(13749) 评论(0) 推荐(5) 编辑
摘要:本篇主要对hadoop命令和hdfs命令进行阐述,yarn命令会在之后的文章中体现 hadoop fs命令可以用于其他文件系统,不止是hdfs文件系统内,也就是说该命令的使用范围更广可以用于HDFS、Local FS等不同的文件系统。而hdfs dfs命令只用于HDFS文件系统; 一、hadoop命 阅读全文
posted @ 2019-09-24 20:15 一寸HUI 阅读(18791) 评论(0) 推荐(1) 编辑
摘要:本篇主要从hdfs的namenode和resourcemanager的高可用进行安装和原理的阐述。 一、HA安装 1、基本环境准备 1.1.1、centos7虚拟机安装,详情见VMware安装Centos7虚拟机 1.1.2、关闭防火墙 1.1.3、修改selinux vim /etc/selinu 阅读全文
posted @ 2019-09-20 23:28 一寸HUI 阅读(5221) 评论(0) 推荐(0) 编辑