2018年12月1日
摘要: 一、Azkaban概述 Azkaban是一个分布式工作流管理器,在LinkedIn上实现,以解决Hadoop作业依赖性问题。 我们有需要按顺序运行的工作,从ETL工作到数据分析产品。 特点: 1)给用户提供了一个非常友好的可视化界面->web界面 2)非常方便的上传工作流-》打成压缩包 3)设置任务间的关系 4)权限设置-》删库到跑路 ... 阅读全文
posted @ 2018-12-01 19:28 末 阅读(2820) 评论(0) 推荐(0) 编辑
摘要: 一、Sqoop概述 1)官网 http://sqoop.apache.org/ 2)场景 传统型缺点,分布式存储。把传统型数据库数据迁移。 Apache Sqoop(TM)是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具。 二、Sqoop安装部署 1)下载安装包 2)解压 tar -... 阅读全文
posted @ 2018-12-01 14:59 末 阅读(1047) 评论(0) 推荐(0) 编辑