摘要: 资源相关参数 //以下参数是在用户自己的 MapReduce 应用程序中配置就可以生效 (1) mapreduce.map.memory.mb: 一个 Map Task 可使用的内存上限(单位:MB),默认为 1024。如果 Map Task 实际使用的资源量超过该值,则会被强制杀死。 (2) ma 阅读全文
posted @ 2018-07-13 22:58 ji丶 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 安全模式概述 安全模式是 HDFS 所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求,是一种保护机制,用于保证集群中的数据块的安全性。 在NameNode主节点启动时,HDFS首先进入安全模式,集群会开始检查数据块的完整性。DataNode 在启动的时候会向 阅读全文
posted @ 2018-07-13 22:50 ji丶 阅读(1267) 评论(0) 推荐(0) 编辑
摘要: 元数据管理概述 HDFS元数据,按类型分,主要包括以下几个部分: 1、文件、目录自身的属性信息,例如文件名,目录名,修改信息等。 2、文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副本个数等。 3、记录 HDFS 的 Datanode 的信息,用于 DataNode 的管理。 按形式分为 阅读全文
posted @ 2018-07-13 22:41 ji丶 阅读(7403) 评论(0) 推荐(1) 编辑
摘要: 背景概述 单 NameNode 的架构使得 HDFS 在集群扩展性和性能上都有潜在的问题,当集群大到一定程度后,NameNode 进程使用的内存可能会达到上百 G,NameNode 成为了性能的瓶颈。因 而提出了 namenode 水平扩展方案-- Federation。 Federation 中文 阅读全文
posted @ 2018-07-13 22:19 ji丶 阅读(5491) 评论(0) 推荐(1) 编辑
摘要: HA 集群搭建的难度主要在于配置文件的编写, 心细,心细,心细! ha模式下,secondary namenode节点不存在... 集群部署节点角色的规划(7节点) server01 namenode zkfcserver02 namenode zkfcserver03 resourcemanage 阅读全文
posted @ 2018-07-13 21:21 ji丶 阅读(479) 评论(1) 推荐(1) 编辑
摘要: HDFS HA Namenode HA 详解 hadoop2.x 之后,Clouera 提出了 QJM/Qurom Journal Manager,这是一个基于 Paxos 算法(分布式一致性算法)实现的 HDFS HA 方案,它给出了一种较好的解决思路和方案,QJM 主要优势如下: 不需要配置额外 阅读全文
posted @ 2018-07-13 20:46 ji丶 阅读(484) 评论(0) 推荐(0) 编辑
摘要: HDFS 并不擅长存储小文件,因为每个文件最少一个 block,每个 block 的元数据都会在 NameNode 占用内存,如果存在大量的小文件,它们会吃掉NameNode 节点的大量内存。 Hadoop Archives 可以有效的处理以上问题,它可以把多个文件归档成为一个文件,归档成一个文件后 阅读全文
posted @ 2018-07-13 16:58 ji丶 阅读(988) 评论(0) 推荐(0) 编辑
摘要: Azkaban介绍 Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban 使用 job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。 Azkaban 功能特点: 阅读全文
posted @ 2018-07-13 15:07 ji丶 阅读(910) 评论(0) 推荐(0) 编辑
摘要: 目录 一、概述 二、工作机制 三、安装 1、前提概述 2、软件下载 3、安装步骤 四、Sqoop的基本命令 基本操作 示例 五、Sqoop的数据导入 1、从RDBMS导入到HDFS中 2、把MySQL数据库中的表数据导入到Hive中 3、把MySQL数据库中的表数据导入到hbase 目录 一、概述 阅读全文
posted @ 2018-07-13 00:11 ji丶 阅读(397) 评论(0) 推荐(0) 编辑