1 datax 安装和简单使用

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
 
https://github.com/alibaba/DataX/blob/master/userGuid.md (参考地址:)
第一步: 下载datax 工具包(直接下载源码编译的时候,老是报错)
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
    下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
$ python datax.py {YOUR_JOB.json}
 
第二步:进入bin目录下 新建配置文件,可以自己新建也可以通过命令生成模板
可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
 
python datax.py -r streamreader -w streamwriter
 
第三步:把上面生成json内容保存在 test.json 文件后,修改里面的内容
{
  "job": {
    "content": [
      {
        "reader": {
          "name": "streamreader",
          "parameter": {
            "sliceRecordCount": 10,
            "column": [
              {
                "type": "long",
                "value": "10"
              },
              {
                "type": "string",
                "value": "hello,你好,世界-DataX"
              }
            ]
          }
        },
        "writer": {
          "name": "streamwriter",
          "parameter": {
            "encoding": "UTF-8",
            "print": true
          }
        }
      }
    ],
    "setting": {
      "speed": {
        "channel": 5
       }
    }
  }
}
 
 
第四步: 启动datax
python datax.py ./test.json
 
posted on 2019-07-09 09:49  一只猪儿虫  阅读(981)  评论(0编辑  收藏  举报