摘要:
HDFS 并不擅长存储小文件,因为每个文件最少一个 block,每个 block 的元数据都会在 NameNode 占用内存,如果存在大量的小文件,它们会吃掉NameNode 节点的大量内存。 Hadoop Archives 可以有效的处理以上问题,它可以把多个文件归档成为一个文件,归档成一个文件后 阅读全文
摘要:
Azkaban介绍 Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban 使用 job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。 Azkaban 功能特点: 阅读全文
摘要:
目录 一、概述 二、工作机制 三、安装 1、前提概述 2、软件下载 3、安装步骤 四、Sqoop的基本命令 基本操作 示例 五、Sqoop的数据导入 1、从RDBMS导入到HDFS中 2、把MySQL数据库中的表数据导入到Hive中 3、把MySQL数据库中的表数据导入到hbase 目录 一、概述 阅读全文