datax
定义
是阿里开源软件异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能
易用性:以执行脚本方式运行,对使用人员技术要求较高。
性能:数据抽取性能高。
部署:可独立部署
适用场景:在异构数据库/文件系统之间高速交换数据。
部署datax
1.上传解压
#将datax压缩文件上传至jars目录
cd /usr/local/soft/jars
#解压到上级目录
tar -zxvf
2.配置环境变量
vim /etc/profile
export DATAX_HOME=/usr/local/soft/datax
export PATH=$DATAX_HOME/bin:$PATH
加载环境变量
source /etc/profile
3.赋予执行权限
#进入bin目录
cd /usr/local/soft/datax/bin/
#给bin目录的datax.py文件执行权限
chnod +x datax.py
使用
MYSQL2HDFS
{
"job": {
"setting": {
"speed": {
"channel":1
},
"errorLimit": {
"record": 0,
"percentage": 0.02
}
},
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"username": "root",
"password": "123456",
"splitPk": "id",
"connection": [
{
"querySql": [
"select * from Student where Sid<10"
],
"jdbcUrl": [
"jdbc:mysql://master:3306/shujia?useSSL=false"
]
}
]
}
},
"writer": {
"name": "hdfswriter",
"parameter": {
"defaultFS": "hdfs://master:9000",
"fileType": "text",
"path": "/datax/student",
"fileName": "student",
"column": [
{
"name": "Sid",
"type": "STRING"
},
{
"name": "Sname",
"type": "STRING"
},
{
"name": "Sage",
"type": "DATE"
},
{
"name": "Ssex",
"type": "STRING"
}
],
"writeMode": "append",
"fieldDelimiter": ","
}
}
}
]
}
}
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 上周热点回顾(2.17-2.23)