摘要: sqoop 数据迁移 1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统。 导出数据:从Hadoop的文件系统中导出数据到关系数据库。 2 工作机制 阅读全文
posted @ 2017-12-18 18:32 IT-執念 阅读(461) 评论(0) 推荐(0) 编辑
摘要: Azkaban 工作流调度器 1 概述 1.1 为什么需要工作流调度系统 a)一个完整的数据分析系统通常都是由大量任务单元组成,shell脚本程序,java程序,mapreduce程序、hive脚本等。 b)各任务单元之间存在时间先后及前后依赖关系。 c)为了很好地组织起这样的复杂执行计划,需要一个 阅读全文
posted @ 2017-12-18 16:01 IT-執念 阅读(1055) 评论(0) 推荐(0) 编辑
摘要: 日志采集框架 Flume 1 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。 一般的采集需求,通过对flume的简单 阅读全文
posted @ 2017-12-18 14:38 IT-執念 阅读(1905) 评论(0) 推荐(0) 编辑