DATAX使用

简介:

DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。

1、架构

FRAMEWORK + PLUGIN的形式

自己实现数据源的reader和writer

目前的插件已经支持以下数据源

 

 

 

 

 

数据流程

 

 

 

2、使用方式

https://github.com/alibaba/DataX/blob/master/userGuid.md

 

方式一:

直接下载工具包,执行

python datax.py {YOUR_JOB.json}
---目前项目中是这种方式,使用dolphinscheduler定时执行该脚本
json配置示例如下,读取stream中数据打印到控制台

 示例二:

 

 

 

方式二:
源码编译

 

3、注意问题

 

 优点:

https://zhuanlan.zhihu.com/p/81817787  见该文章优点总结

 

 

扩展:

DATAX-WEB

 

posted @ 2021-10-10 21:32  zipon  阅读(182)  评论(0编辑  收藏  举报