DataX导出ADS层数据
-
在完成数据仓库的ODS层,DIM层,DWD层,DWS层,ADS层设计和构建之后,为方便业务报表层使用数据,需将ADS层各指标的统计结果同步到MySQL数据库中,这里我们使用DataX工具进行数据同步。DataX在整体的数据仓库中处于数仓与报表层的中间位置
-
DataX介绍
DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能
- 需求
常见的需求是将ADS 层数据分析结果以报表和仪表板的形式展示给业务用户,以便领导可以更直观地了解数据并做出决策。这就需要我们把ADS层的数据同步到MySQL数据库中
- 数据来源
ADS层为DataX提供了原始数据,使用DataX工具对这些原始数据进行了数据同步,存入MySQL。其中,数据调用要遵循层次调用规范:
禁止反向调用
ADS层的数据同步到mysql
ADS -> DataX -> MySQL
graph LR
A[ADS] --> B[DataX] --> C[MySQL]
- MySQL命名规范
在MySQL中表创建与数据仓库HIVE遵循相同的规范,根据不同的模型层次,主题,业务进行创建。其中命名规范大致如下:
数据表命名规范:ads_主题域_业务域_汇总粒度
MySQL数据库表的规划步骤:
1. 根据规则定义数据表名已经表是否存在
2. 确定对应关系
3. 确定目标表的列属性
4. 确定表创建信息
5. 定义目标表的DDL