随笔分类 -  Hadoop

摘要:获取Namenode ID 查看nn1的状态 hdfs haadmin -getServiceState namenode30 #standby hdfs haadmin -getServiceState namenode37 #active 修改nn2为standby状态 hdfs haadmin 阅读全文
posted @ 2022-09-02 09:47 民宿 阅读(464) 评论(0) 推荐(1) 编辑
摘要:1.Hadoop相关配置文件 1.1core-site.xml <?xml version="1.0" encoding="utf-8"?> <configuration> <!-- HA 指定hdfs的nameservice为bdpha--> <property> <name>fs.default 阅读全文
posted @ 2021-11-25 13:21 民宿 阅读(166) 评论(0) 推荐(0) 编辑
摘要:问题 访问HDFS报错:org.apache.hadoop.security.AccessControlException: Permission denied import org.apache.hadoop.conf.Configuration; import org.apache.hadoop 阅读全文
posted @ 2021-11-25 11:55 民宿 阅读(372) 评论(0) 推荐(0) 编辑
摘要:大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作 阅读全文
posted @ 2021-11-02 16:11 民宿 阅读(248) 评论(0) 推荐(0) 编辑
摘要:This page summarizes the steps to install Hadoop 3.0.0 on your Windows environment. Reference page: https://wiki.apache.org/hadoop/Hadoop2OnWindows ht 阅读全文
posted @ 2021-08-05 13:27 民宿 阅读(215) 评论(0) 推荐(0) 编辑
摘要:背景 (1)问题背景 线上集群 Container 日志上报的事务集群 namenode rpc 持续飙高,影响到了 Yarn 分配 Container 的性能,任务提交数下降,导致整个集群的吞吐量下降。 (2)原因简介 作业提交到 Yarn 集群时,每个 NM 节点都会对每个 app 作业进行日志 阅读全文
posted @ 2021-07-23 13:11 民宿 阅读(899) 评论(0) 推荐(0) 编辑
摘要:一、聚合日志介绍 日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container 任务日志存在在各个NodeManager上,保存在"yarn.nodemana 阅读全文
posted @ 2021-07-23 13:09 民宿 阅读(458) 评论(0) 推荐(0) 编辑
摘要:一、Yarn 架构 1.1 基本概念 Yarn 采用传统的 master-slave 架构模式,其主要由 4 种组件组成,它们的主要功能如下: ResourceManager(RM):全局资源管理器,负责整个系统的资源管理和分配; 处理客户端请求 启动/监控ApplicationMaster 监控N 阅读全文
posted @ 2021-07-23 12:02 民宿 阅读(223) 评论(0) 推荐(0) 编辑
摘要:本文主要介绍 ApplicationMaster 的运行流程,并从 ApplicationMaster 的启动、注册/心跳、Container 资源申请与分配三个角度分析相关源码。其中花了大量篇幅介绍 ApplicationMaster 的启动过程,包括任务提交流程、App/Attempt 转换过程 阅读全文
posted @ 2021-07-23 11:39 民宿 阅读(230) 评论(0) 推荐(0) 编辑
摘要:在 《ApplicationMaster启动及资源申请源码分析》中,AM 向 RM 注册后,会周期性地通过 RPC 函数 ApplicationMaster#allocate() 与 RM 通信,通信目的包括请求资源、获取新分配的资源及形成周期性心跳,本文中我们重点看看 AM 向 RM 申请到 Co 阅读全文
posted @ 2021-07-23 11:37 民宿 阅读(538) 评论(0) 推荐(0) 编辑
摘要:NodeManager(NM)是 Yarn 中单个节点上的代理,它管理 Hadoop 集群中单个计算节点,功能包括与 ResourceManager 保持通信、管理 Container 的生命周期、监控每个 Container 的资源使用情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务( 阅读全文
posted @ 2021-07-23 11:34 民宿 阅读(244) 评论(0) 推荐(0) 编辑
摘要:一、经典MapReduce的作业运行机制 如下图是经典MapReduce作业的工作原理: 1.1 经典MapReduce作业的实体 经典MapReduce作业运行过程包含的实体: 客户端,提交MapReduce作业。 JobTracker,协调作业的运行。JobTracker是一个Java应用程序, 阅读全文
posted @ 2021-07-23 11:30 民宿 阅读(190) 评论(0) 推荐(0) 编辑
摘要:一、ResourceManager基本职能 在YARN中,ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationMaster)。整体上讲,Resourc 阅读全文
posted @ 2021-07-23 11:28 民宿 阅读(421) 评论(0) 推荐(0) 编辑
摘要:五台机器已经配好ip地址和免秘钥登录,文中不在赘述,有疑问的同学可自行百度,另外本集群采用非root用户搭建,很多命令都带有sudo,若使用root用户搭建,可忽视,如果你也使用非root用户,请特别注意,免秘钥也是非root用户 集群规划 hadoop1hadoop2hadoop3hadoop4h 阅读全文
posted @ 2021-04-30 00:04 民宿 阅读(481) 评论(0) 推荐(0) 编辑
摘要:我们知道 YARN 是 Hadoop 资源管理器,无论是 MapReduce 应用还是 Spark 应用,应该都会用到 Yarn。 Yarn 的组成以及工作流程: 先介绍几个角色 ResourceManager一个集群只有一个 RM,它是 YARN 的总指挥,负责协调集群上的计算资源,它有以下两个组 阅读全文
posted @ 2021-04-15 19:57 民宿 阅读(696) 评论(0) 推荐(0) 编辑