合集-pydatax

摘要:缘起一: 公司现有数据仓库,是通过kettle从mysql抽取到目标库,运行多年,主要有以下问题, 1,效率低:kettle抽取行数少 2,容错性差:一个表抽取出错就导致后续计算会出问题, 3,扩展性差: 对多库多表等支持不好 近300张表抽取,再加上计算,每天都算到7点,还有2个巨大的计算要等到1 阅读全文
posted @ 2024-02-21 15:58 zping 阅读(444) 评论(0) 推荐(2) 编辑
摘要:数据抽取平台pydatax实现过程中,有2个关键点: 1、是否能在python3中调用执行datax任务,自己测试了一下可以,代码如下: 这个str1就是配置的shell文件 try: result = os.popen(str1).read() except Exception as e: pri 阅读全文
posted @ 2024-02-27 10:05 zping 阅读(533) 评论(0) 推荐(0) 编辑
摘要:数据抽取平台pydatax,前期项目做过介绍: 1,数据抽取平台pydatax介绍--实现和项目使用 项目2: 客户有9个分公司,用的ERP有9套,有9个库,不同版本,抽取的同一个表字段长度有不一样,字段可能有多有少,客户ERP核心分公司ERP几个月后有大版本升级。 在2023年12月,当时做这个抽 阅读全文
posted @ 2024-11-25 11:11 zping 阅读(251) 评论(0) 推荐(1) 编辑
摘要:公司有一套StarRocks的大数据库在大股东的腾讯云环境中,通过腾讯云的对等连接打通,通过dolphinscheduler调度datax离线抽取数据和SQL计算汇总,还有在大股东的特有的Flink集群环境,该环境开发了flink开发程序包部署,实时同步数据。 公司业务帆软报表平台有40张左右的报表 阅读全文
posted @ 2024-12-02 11:20 zping 阅读(512) 评论(2) 推荐(0) 编辑

点击右上角即可分享
微信分享提示