数据抽取平台pydatax使用案例---11个库项目使用

    数据抽取平台pydatax,前期项目做过介绍:

       1,数据抽取平台pydatax介绍--实现和项目使用

     项目2: 客户有9个分公司,用的ERP有9套,有9个库,不同版本,抽取的同一个表字段长度有不一样,字段可能有多有少,客户ERP核心分公司ERP几个月后有大版本升级。

     在2023年12月,当时做这个抽取时,客户只是做一个分公司的,抽取9套其中的一套ERP的Oracle库,当时考虑是否把这9个库的都抽取了,免得后面客户要做,浪费时间再做一遍,太麻烦,问了项目负责人也没说是要把这9个库都抽取过来,没说要做!  到底怎么处理?

     想想早晚要做,还是先都抽取了,把他的8家公司的Oracle数据库都抽取过来,各个公司的数据,9张表合并成1张,在表加租户id字段区分:tenant_id 确定是那个公司的,把这个大数据抽取,数据指标计算完成。

     到了2024年7月份,客户突然说后续指标计算暂停,要把其他的子公司的数据和计算也加进去,这半年又新参股合并了3家公司,原先有一家去掉。一共要新加7+3=10家公司,为支持该业务需要,pydatax的修改过程如下:

   1,JSON抽取模板修改

      oracle_gp_table_df_job.json文件加上新加的3个分公司,再原有的json去掉一家公司:   

{ 
"querySql": [  "select SYSdate as etl_create_time,SYSdate as etl_update_time, 'wflsy' as tenant_id,${src_table_columns_wflsy} from wflsy.${src_table_name} ${relation} where ${condition}" ],
"jdbcUrl": [ "jdbc:oracle:thin:@10.0.1.206:1521:erp"]
},
{ 
"querySql": [  "select SYSdate as etl_create_time,SYSdate as etl_update_time, 'ky' as tenant_id, ${src_table_columns_ky} from ky.${src_table_name} ${relation} where ${condition}" ],
"jdbcUrl": [ "jdbc:oracle:thin:@10.0.1.206:1521:erp"]
},
{ 
"querySql": [  "select SYSdate as etl_create_time,SYSdate as etl_update_time, 'wfjy' as tenant_id, ${src_table_columns_wfjy} from wfjy.${src_table_name} ${relation} where ${condition}" ],
 "jdbcUrl": [ "jdbc:oracle:thin:@10.0.1.206:1521:erp"]
},

  2,Python程序修改 

   以上加上后,同时要在pydatax.py和vprepair.py的脚本上加上3个变量,传递给datax的json模板, 这样每天抽取任务的全量和增量3家新公司数据生效。 

src_table_columns_wflsy=get_org_src_columns(src_table_columns,"WFLSY",src_table_name)    
src_table_columns_ky=get_org_src_columns(src_table_columns,"KY",src_table_name)
src_table_columns_wfjy=get_org_src_columns(src_table_columns,"WFJY",src_table_name)
" -Dsrc_table_columns_std='" + src_table_columns_std + "' " \ " -Dsrc_table_columns_ky='" + src_table_columns_ky + "' " \ " -Dsrc_table_columns_wflsy='" + src_table_columns_wflsy + "' " \ " -Dsrc_table_columns_wfjy='" + src_table_columns_wfjy + "' " \ " -Ddes_table_columns='"+des_table_columns+"' \" "

    这样整个每天11家公司的表全量数据和表增量数据就正常的,全量同步的表数据是每天全量,不用处理,但增量表历史数据怎么抽取过来?  

  3,增量表历史数据处理

    1,将1中的3个Json单独编写成1个json模板,模板的"preSql"中的“truncate table 表“ 数据不再使用。

    2,新模板json文件放到对应文件夹下,写一条数据到datax_json中

    3,是增量的历史表datax_config的数据copy一份到datax_config_repair中,并将json_id和2中的一致,只按2的新模板抽取数据

    4,执行vprepair.py后,数据同步到临时表stg表,再执行select sp_stg();

  4, 特殊表处理

      商品表,有家公司的商品表,同一个商品有多个,直接抽取商品表,会在该公司有多条数据,客户做了个视图过滤成1条,说抽取这个视图数据就可以,但pydatax的11个库的表名要必须一致,怎么处理?

   想想也可以实现,就是对这个商品表单独配置一个抽取JSON模板,如下:dbo.base_${src_table_name} ,当然也可以把这个表名写死,也可以使用。在datax_config表的json_id配置成新的模板,就可以实现单独表的特殊处理。

"querySql": [  "select SYSdate as etl_create_time,SYSdate as etl_update_time, 'zb' as tenant_id,${src_table_columns} from dbo.base_${src_table_name} ${relation} where ${condition}" ],
 "jdbcUrl": [ "jdbc:oracle:thin:@192.168.0.17:1521/erpdg"]
},

 

  修改的文件放在压缩包的”11库抽取”文件夹下:

   pydatax源码下载地址:

            1,https://files.cnblogs.com/files/zping/pydatax.rar 

  总结:

         1,pydatax的灵活性在此项目得到很好的验证

         2,其简单的修改就可以快速满足客户的需求

 

posted @ 2024-11-25 11:11  zping  阅读(216)  评论(0编辑  收藏  举报