pydatax- - zping - 博客园

数据抽取平台pydatax介绍

摘要：缘起一：公司现有数据仓库，是通过kettle从mysql抽取到目标库，运行多年，主要有以下问题， 1，效率低：kettle抽取行数少 2，容错性差：一个表抽取出错就导致后续计算会出问题， 3，扩展性差：对多库多表等支持不好近300张表抽取，再加上计算，每天都算到7点，还有2个巨大的计算要等到1 阅读全文

posted @ 2024-02-21 15:58 zping 阅读(533) 评论(0) 推荐(2)

数据抽取平台pydatax介绍--实现和项目使用

摘要：数据抽取平台pydatax实现过程中，有2个关键点： 1、是否能在python3中调用执行datax任务，自己测试了一下可以，代码如下：这个str1就是配置的shell文件 try: result = os.popen(str1).read() except Exception as e: pri 阅读全文

posted @ 2024-02-27 10:05 zping 阅读(656) 评论(0) 推荐(0)

数据抽取平台pydatax使用案例---11个库项目使用

摘要：数据抽取平台pydatax，前期项目做过介绍： 1，数据抽取平台pydatax介绍--实现和项目使用项目2：客户有9个分公司，用的ERP有9套，有9个库，不同版本，抽取的同一个表字段长度有不一样，字段可能有多有少，客户ERP核心分公司ERP几个月后有大版本升级。在2023年12月，当时做这个抽阅读全文

posted @ 2024-11-25 11:11 zping 阅读(337) 评论(0) 推荐(1)

13TB的StarRocks大数据库迁移过程

摘要：公司有一套StarRocks的大数据库在大股东的腾讯云环境中，通过腾讯云的对等连接打通，通过dolphinscheduler调度datax离线抽取数据和SQL计算汇总，还有在大股东的特有的Flink集群环境，该环境开发了flink开发程序包部署，实时同步数据。公司业务帆软报表平台有40张左右的报表阅读全文

posted @ 2024-12-02 11:20 zping 阅读(823) 评论(2) 推荐(0)

合集-pydatax

公告