datax

定义

是阿里开源软件异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能
易用性:以执行脚本方式运行,对使用人员技术要求较高。

性能:数据抽取性能高。
部署:可独立部署
适用场景:在异构数据库/文件系统之间高速交换数据。

部署datax

1.上传解压

#将datax压缩文件上传至jars目录
cd /usr/local/soft/jars
#解压到上级目录
tar -zxvf 

2.配置环境变量

vim /etc/profile

export DATAX_HOME=/usr/local/soft/datax
export PATH=$DATAX_HOME/bin:$PATH

加载环境变量
source /etc/profile

3.赋予执行权限

#进入bin目录
cd /usr/local/soft/datax/bin/
#给bin目录的datax.py文件执行权限
chnod +x datax.py

使用

MYSQL2HDFS

{
    "job": {
        "setting": {
            "speed": {
                "channel":1
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "123456",
                        
                        "splitPk": "id",
                        "connection": [
                            {
                                "querySql": [
                                "select * from Student where Sid<10"
                                ],
                                "jdbcUrl": [
     "jdbc:mysql://master:3306/shujia?useSSL=false"
                                ]
                            }
                        ]
                    }
                },
"writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://master:9000",
                        "fileType": "text",
                        "path": "/datax/student",
                        "fileName": "student",
                        "column": [
                            {
                                "name": "Sid",
                                "type": "STRING"
                            },
                            {
                                "name": "Sname",
                                "type": "STRING"
                            },
                            {
                                "name": "Sage",
                                "type": "DATE"
                            },
                            {
                                "name": "Ssex",
                                "type": "STRING"
                            }
                        ],
                        "writeMode": "append",
                        "fieldDelimiter": ","
                      
                    }
                }
            }
        ]
    }
}

posted @   rrrzzzrrr  阅读(16)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 上周热点回顾(2.17-2.23)
点击右上角即可分享
微信分享提示