数据同步工具-DataX

1、DataX 基本介绍

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具，致力于实现包括：关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase、ODPS、FTP等各种异构数据源之间稳定高效的数据同步功能。
设计理念
- 为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。
当前使用现状
- DataX在阿里巴巴集团内被广泛使用，承担了所有大数据的离线同步业务，并已持续稳定运行了6年之久。目前每天完成同步8w多道作业，每日传输数据量超过300TB。
- 此前已经开源DataX1.0版本，此次介绍为阿里云开源全新版本DataX 3.0，有了更多更强大的功能和更好的使用体验。
- Github主页地址：https://github.com/alibaba/DataX

2、DataX 3.0 框架设计

DataX 本身作为离线数据同步框架，采用Framework + plugin 架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。
- Reader
  - Reader 为数据采集模块，负责采集数据源的数据，将数据发送给 Framework。
- Writer
  - Writer 为数据写入模块，负责不断向 Framework 取数据，并将数据写入到目的端。
- Framework
  - Framework 用于连接 Reader 和 Writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

3、DataX 3.0 插件体系

经过几年积累，DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下：

类型	数据源	Reader(读)	Writer(写)	文档
RDBMS 关系型数据库	MySQL	√	√	读、写
	Oracle	√	√	读、写
	SQLServer	√	√	读、写
	PostgreSQL	√	√	读、写
	DRDS	√	√	读、写
	达梦	√	√	读、写
	通用RDBMS(支持所有关系型数据库)	√	√	读、写
阿里云数仓数据存储	ODPS	√	√	读、写
	ADS		√	写
	OSS	√	√	读、写
	OCS	√	√	读、写
NoSQL数据存储	OTS	√	√	读、写
	Hbase0.94	√	√	读、写
	Hbase1.1	√	√	读、写
	MongoDB	√	√	读、写
	Hive	√	√	读、写
无结构化数据存储	TxtFile	√	√	读、写
	FTP	√	√	读、写
	HDFS	√	√	读、写
	Elasticsearch		√	写

4、DataX 3.0 核心架构

DataX 3.0 支持单机多线程模式完成数据同步作业，本小节按一个DataX作业生命周期的时序图，从整体架构设计简要说明DataX各个模块之间的相互关系。
核心模块介绍
- 1. DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
- 1. DataX Job启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。
- 1. 切分多个Task之后，DataX Job会调用 Scheduler 模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task，默认单个任务组的并发数量为5。
- 1. 每一个Task都由TaskGroup负责启动，Task启动后，会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
- 1. DataX作业运行起来之后， Job监控并等待多个TaskGroup模块任务完成，等待所有TaskGroup任务完成后Job成功退出。否则，异常退出，进程退出值非0。
DataX调度流程
- 举例来说，用户提交了一个DataX作业，并且配置了20个并发，目的是将一个100张分表的mysql数据同步到odps里面。 DataX的调度决策思路是：
  - 1. DataXJob根据分库分表切分成了100个Task。
  - 1. 根据20个并发，默认单个任务组的并发数量为5，DataX计算共需要分配4个TaskGroup。
  - 1. 这里4个TaskGroup平分切分好的100个Task，每一个TaskGroup负责以5个并发共计运行25个Task。

DataX 安装部署

安装前置要求
Linux 使用Centos7
JDK ( 1.8 以上 )
Python ( 2.6 以上 ) Centos7 默认安装了Python 2.7

1、访问官网下载安装包
- http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
2、上传安装包到服务器hadoop03节点

3、解压安装包到指定的目录中

tar -zxvf datax.tar.gz -C /bigdata/install

4、运行自检脚本测试

[hadoop@hadoop03 bin]$ cd /bigdata/install/datax/bin
[hadoop@hadoop03 bin]$ python datax.py ../job/job.json

DataX 实战案例 -- 使用datax实现将mysql数据导入到hdfs

需求: 将mysql表student的数据导入到hdfs的 /datax/mysql2hdfs/路径下面去。

1、创建mysql数据库和需要用到的表结构，并导入实战案例需要用到的数据

  [hadoop@hadoop02 ~] mysql -uroot -p123456
  mysql> create database datax;
  mysql> use datax;
  mysql> create table student(id int,name varchar(20),age int,createtime timestamp );
  mysql> insert into `student` (`id`, `name`, `age`, `createtime`) values('1','zhangsan','18','2021-05-10 18:10:00');
  mysql> insert into `student` (`id`, `name`, `age`, `createtime`) values('2','lisi','28','2021-05-10 19:10:00');
  mysql> insert into `student` (`id`, `name`, `age`, `createtime`) values('3','wangwu','38','2021-05-10 20:10:00');

2、创建作业的配置文件（json格式）

查看配置模板，执行脚本命令

[hadoop@hadoop03 datax]$ cd /bigdata/install/datax
[hadoop@hadoop03 datax]$ python bin/datax.py -r mysqlreader -w hdfswriter

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.

Please refer to the mysqlreader document:
     https://github.com/alibaba/DataX/blob/master/mysqlreader/doc/mysqlreader.md 

Please refer to the hdfswriter document:
     https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md 
 
Please save the following configuration as a json file and  use
     python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
to run the job.

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader", 
                    "parameter": {
                        "column": [], 
                        "connection": [
                            {
                                "jdbcUrl": [], 
                                "table": []
                            }
                        ], 
                        "password": "", 
                        "username": "", 
                        "where": ""
                    }
                }, 
                "writer": {
                    "name": "hdfswriter", 
                    "parameter": {
                        "column": [], 
                        "compress": "", 
                        "defaultFS": "", 
                        "fieldDelimiter": "", 
                        "fileName": "", 
                        "fileType": "", 
                        "path": "", 
                        "writeMode": ""
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}

其中hdfswriter插件文档
- https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md

3、根据模板写配置文件

进入到 /bigdata/install/datax/job 目录，然后创建配置文件 mysql2hdfs.json, 文件内容如下：

{
    "job": {
        "setting": {
            "speed": {
                 "channel":1
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "123456",
                        "connection": [
                            {
                                "querySql": [
                                    "select id,name,age,createtime from student where age < 30;"
                                ],
                                "jdbcUrl": [
                                    "jdbc:mysql://hadoop02:3306/datax"
                                ]
                            }
                        ]
                    }
                },
                  "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://hadoop01:8020",
                        "fileType": "text",
                        "path": "/datax/mysql2hdfs/",
                        "fileName": "student.txt",
                        "column": [
                            {
                                "name": "id",
                                "type": "INT"
                            },
                            {
                                "name": "name",
                                "type": "STRING"
                            },
                            {
                                "name": "age",
                                "type": "INT"
                            },
                            {
                                "name": "createtime",
                                "type": "TIMESTAMP"
                            }
                        ],
                        "writeMode": "append",
                        "fieldDelimiter": "\t",
                        "compress":"gzip"
                    }
                }
            }
        ]
    }
}

4、启HDFS, 创建目标路径

[hadoop@hadoop01 ~]$ start-dfs.sh 
[hadoop@hadoop01 ~]$ hdfs dfs -mkdir -p /datax/mysql2hdfs

5、启动DataX

[hadoop@hadoop03 bin]$ cd /bigdata/install/datax
[hadoop@hadoop03 bin]$ python bin/datax.py job/mysql2hdfs.json

6、观察控制台输出结果

同步结束，显示日志如下：

2021-06-18 01:41:26.452 [job-0] INFO  JobContainer - 
任务启动时刻                    : 2021-06-18 01:41:14
任务结束时刻                    : 2021-06-18 01:41:26
任务总计耗时                    :                 11s
任务平均流量                    :                3B/s
记录写入速度                    :              0rec/s
读出记录总数                    :                   2
读写失败总数                    :                   0

7、查看HDFS上文件生成，并验证结果

将上边结果下载解压后打开，可以看到里面的结果和mysql中结果对比

DataX 实战案例 -- 使用datax实现将hdfs数据导入到mysql表中

需求: 将hdfs上数据文件 user.txt 导入到mysql数据库的user表中。

1、创建作业的配置文件（json格式）

查看配置模板，执行脚本命令

[hadoop@hadoop03 ~]$ cd /bigdata/install/datax
[hadoop@hadoop03 datax]$ python bin/datax.py -r hdfsreader -w mysqlwriter

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.

Please refer to the hdfsreader document:
     https://github.com/alibaba/DataX/blob/master/hdfsreader/doc/hdfsreader.md 

Please refer to the mysqlwriter document:
     https://github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md 
 
Please save the following configuration as a json file and  use
     python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
to run the job.

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "hdfsreader", 
                    "parameter": {
                    "column": [], 
                    "defaultFS": "", 
                        "encoding": "UTF-8", 
                        "fieldDelimiter": ",", 
                        "fileType": "orc", 
                        "path": ""
                    }
                }, 
                "writer": {
                    "name": "mysqlwriter", 
                    "parameter": {
                        "column": [], 
                        "connection": [
                            {
                                "jdbcUrl": "", 
                                "table": []
                            }
                        ], 
                        "password": "", 
                        "preSql": [], 
                        "session": [], 
                        "username": "", 
                        "writeMode": ""
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}

其中hdfsreader插件文档
- https://github.com/alibaba/DataX/blob/master/hdfsreader/doc/hdfsreader.md

2、根据模板写配置文件

进入到 /bigdata/install/datax/job 目录，然后创建配置文件 hdfs2mysql.json, 文件内容如下：

{
    "job": {
        "setting": {
            "speed": {
                 "channel":1
            }
        },
        "content": [
            {
                "reader": {
                    "name": "hdfsreader",
                    "parameter": {
                    "defaultFS": "hdfs://hadoop01:8020",
                        "path": "/user.txt",                  
                        "fileType": "text",
                        "encoding": "UTF-8",
                        "fieldDelimiter": "\t",
                        "column": [
                               {
                                "index": 0,
                                "type": "long"
                               },
                               {
                                "index": 1,
                                "type": "string"
                               },
                               {
                                "index": 2,
                                "type": "long"
                               }
                        ]
                      }
                  },
               "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "writeMode": "insert",
                        "username": "root",
                        "password": "123456",
                        "column": [
                            "id",
                            "name",
                            "age"
                        ],
                        "preSql": [
                            "delete from user"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://hadoop02:3306/datax?useUnicode=true&characterEncoding=utf-8",
                                "table": [
                                    "user"
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    }
}

3、准备HDFS上测试数据文件 user.txt
- user.txt文件内容如下
```
1	zhangsan  20
2	lisi  29
3	wangwu  25
4	zhaoliu  35
5	kobe  40
```
- 文件中每列字段通过\t 制表符进行分割，上传文件到hdfs上
```
[hadoop@hadoop03 ~]$ hdfs dfs -put user.txt /
```

4、创建目标表

mysql> create table datax.user(id int,name varchar(20),age int);