《OD学Sqoop》数据转换工具Sqoop

一、 第二阶段课程回顾

hadoop 2.x

  HDFS

  YARN

  MapReduce

  Zookeeper

Hive

 

二、大数据协作框架

对日志类型的海量数据进行分析

hdfs

mapreduce/hive

1. 数据来源

(1)RDBMS(Oracle、MySQL、DB2...)  ->   sqoop(SQL to Hadoop)

(2)文件(apache,nginx日志数据)  ->   Flume(实时抽取数据)

 

2. 任务调度

对数据的分析任务Job,至少都是上千(互联网公司)

任务调度:什么时候执行,多长执行一次

某一些业务的分析,需要许多job任务共同完成,相互依赖关系,工作流。

Ooozie 

宙斯

 

3. 监控

统一WEB UI界面管理 Hue

 

三、业务流程

对数据进行分析

结果集存储:hdfs文件/hive表中

Sqoop=>导出到RDBMS

 

四、Apache Sqoop

1. Sqoop: SQL-to-Hadoop

2. 连接传统关系型数据库和Hadoop的桥梁

(1)把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中

(2)把数据从Hadoop系统里抽取并导出到关系型数据库里

3. 利用MapReduce加快数据传输速度

批处理方式进行数据传输

 将常用的MapReduce(数据导入导出)进行封装,通过传递参数的形式,运行MapReduce任务。

MapReduce任务

 

Cli 

bin/sqoop import ...

4. 以Hadoop为主体,RDBMS为客体

sqoop import 

将RDBMS数据放入hadoop中,就是导入,import

sqoop export

将hadoop中的数据放入到RDBMS中,就是导出,export

5. sqoop依赖于hadoop

(1)数据的乙方,存储在hdfs

(2)底层的数据的传输实现MapReduce / YARN

 

 

五、环境搭建

 

posted @ 2016-07-19 13:33  沙漏哟  阅读(328)  评论(0编辑  收藏  举报