《OD学Sqoop》数据转换工具Sqoop

一、第二阶段课程回顾

hadoop 2.x

　　HDFS

　　YARN

　　MapReduce

　　Zookeeper

Hive

二、大数据协作框架

对日志类型的海量数据进行分析

hdfs

mapreduce/hive

1. 数据来源

（1）RDBMS（Oracle、MySQL、DB2...） -> sqoop（SQL to Hadoop）

（2）文件（apache，nginx日志数据） -> Flume（实时抽取数据）

2. 任务调度

对数据的分析任务Job，至少都是上千（互联网公司）

任务调度：什么时候执行，多长执行一次

某一些业务的分析，需要许多job任务共同完成，相互依赖关系，工作流。

Ooozie

宙斯

3. 监控

统一WEB UI界面管理 Hue

三、业务流程

对数据进行分析

结果集存储：hdfs文件/hive表中

Sqoop=>导出到RDBMS

四、Apache Sqoop

1. Sqoop: SQL-to-Hadoop

2. 连接传统关系型数据库和Hadoop的桥梁

（1）把关系型数据库的数据导入到Hadoop与其相关的系统（如HBase和Hive）中

（2）把数据从Hadoop系统里抽取并导出到关系型数据库里

3. 利用MapReduce加快数据传输速度

批处理方式进行数据传输

将常用的MapReduce（数据导入导出）进行封装，通过传递参数的形式，运行MapReduce任务。

MapReduce任务

Cli

bin/sqoop import ...

4. 以Hadoop为主体，RDBMS为客体

sqoop import

将RDBMS数据放入hadoop中，就是导入，import

sqoop export

将hadoop中的数据放入到RDBMS中，就是导出，export

5. sqoop依赖于hadoop

（1）数据的乙方，存储在hdfs

（2）底层的数据的传输实现MapReduce / YARN

五、环境搭建

posted @ 2016-07-19 13:33 沙漏哟阅读(338) 评论(0) 收藏举报

刷新页面返回顶部

沙漏哟计算机的未来在于联结

哲学 + 社会学 ==> 计算机技术（计算机是人造科学）经济学 + 心理学 + 大数据 ==> 互联网产品经理（产品设计是社会科学）

《OD学Sqoop》数据转换工具Sqoop

公告

沙漏哟 计算机的未来在于联结

哲学 + 社会学 ==> 计算机技术（计算机是人造科学） 经济学 + 心理学 + 大数据 ==> 互联网产品经理（产品设计是社会科学）

《OD学Sqoop》数据转换工具Sqoop

公告

沙漏哟计算机的未来在于联结

哲学 + 社会学 ==> 计算机技术（计算机是人造科学）经济学 + 心理学 + 大数据 ==> 互联网产品经理（产品设计是社会科学）