DataX导出ADS层数据
-
在完成数据仓库的ODS层,DIM层,DWD层,DWS层,ADS层设计和构建之后,为方便业务报表层使用数据,需将ADS层各指标的统计结果同步到MySQL数据库中,这里我们使用DataX工具进行数据同步。DataX在整体的数据仓库中处于数仓与报表层的中间位置
-
DataX介绍
DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能
- 需求
常见的需求是将ADS 层数据分析结果以报表和仪表板的形式展示给业务用户,以便领导可以更直观地了解数据并做出决策。这就需要我们把ADS层的数据同步到MySQL数据库中
- 数据来源
ADS层为DataX提供了原始数据,使用DataX工具对这些原始数据进行了数据同步,存入MySQL。其中,数据调用要遵循层次调用规范: 禁止反向调用 ADS层的数据同步到mysql ADS -> DataX -> MySQL
- MySQL命名规范
在MySQL中表创建与数据仓库HIVE遵循相同的规范,根据不同的模型层次,主题,业务进行创建。其中命名规范大致如下: 数据表命名规范:ads_主题域_业务域_汇总粒度 MySQL数据库表的规划步骤: 1. 根据规则定义数据表名已经表是否存在 2. 确定对应关系 3. 确定目标表的列属性 4. 确定表创建信息 5. 定义目标表的DDL
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 字符编码:从基础到乱码解决
· 提示词工程——AI应用必不可少的技术