随笔分类 -  datax

摘要:{ "job": { "setting": { "speed": { "channel": 3 }, "errorLimit": { "record": 0, "percentage": 0.02 } }, "content": [ { "reader": { "name": "mongodbrea 阅读全文
posted @ 2024-11-01 16:59 所向披靡zz 阅读(73) 评论(0) 推荐(0) 编辑
摘要:参考链接:https://developer.aliyun.com/article/1379214 阅读全文
posted @ 2024-10-11 11:32 所向披靡zz 阅读(5) 评论(0) 推荐(0) 编辑
摘要:可能的原因有以下几点: 1、数据源故障:第一个查看的应该是数据源本身是否正常。检查数据源是否可以正常连接、访问。 2、datax 配置错误:比如数据库连接信息写错了,sql 语句写错了等。需要检查 datax 配置文件是否正确。 3、网络问题:尤其是异地同步,网络不稳定可能导致同步失败。 4、并发数 阅读全文
posted @ 2024-09-30 10:41 所向披靡zz 阅读(197) 评论(0) 推荐(0) 编辑
摘要:datax读取hive表有两种方式,一种是读取hdfs文件路径HDFSReader,因为hive是存储在hdfs上。第二种是读取hive表RDBMSReader。 HDFSReader { "job": { "setting": { "speed": { "channel": 3 }, "error 阅读全文
posted @ 2024-05-28 16:02 所向披靡zz 阅读(619) 评论(0) 推荐(0) 编辑
摘要:安装前提: jdk1.8 python2以上 http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gzhttps://blog.csdn.net/qq_25112523/article/details/109276687htt 阅读全文
posted @ 2024-01-17 16:18 所向披靡zz 阅读(13) 评论(0) 推荐(0) 编辑
摘要:测试: 结果: path中文件并没有顺序读取,datax暂不支持文件顺序读取。 阅读全文
posted @ 2023-12-11 16:40 所向披靡zz 阅读(135) 评论(0) 推荐(0) 编辑
摘要:1、源库nummic-->hive decimal这个datax抽取的时候默认string,精度没丢失 阅读全文
posted @ 2023-11-18 17:30 所向披靡zz 阅读(17) 评论(0) 推荐(0) 编辑
摘要:1、Sqoop有很好的并发性,DataX是单进程的。2、Sqoop只可以从关系型数据库导入hadoop,不支持关系型数据库之间以及大数据组件之间的数据迁移,例如MySQL-oracle,hive-hbase之间是不支持的。3、dataX都是支持的Sqoop本质是一个mapreduce的作业,而Dat 阅读全文
posted @ 2023-11-16 18:08 所向披靡zz 阅读(254) 评论(0) 推荐(0) 编辑
摘要:mysql连接jdbc修改时区都不行 &serverTimezone=Asia/Shanghai &serverTimezone=Hongkong &serverTimezone=GMT%2B8 解决方案: 对字段加8个小时 DATE_ADD(CREATETIME, INTERVAL 8 HOUR) 阅读全文
posted @ 2023-11-16 16:34 所向披靡zz 阅读(164) 评论(0) 推荐(0) 编辑
摘要:https://kb.transwarp.cn/posts/1055 阅读全文
posted @ 2023-11-10 15:20 所向披靡zz 阅读(8) 评论(0) 推荐(0) 编辑
摘要:https://www.jianshu.com/p/2713e2679232 阅读全文
posted @ 2023-11-10 14:37 所向披靡zz 阅读(7) 评论(0) 推荐(0) 编辑
摘要:datax抽取mysql数据报错: [INFO] 2023-11-09 12:35:14.090 +0000 - -> 2023-11-09 20:35:13.492 [0-0-0-reader] ERROR ReaderRunner - Reader runner Received Excepti 阅读全文
posted @ 2023-11-10 10:39 所向披靡zz 阅读(507) 评论(0) 推荐(0) 编辑
摘要:"job": { "setting": { "speed": { "channel": 3, "byte": 1048576 }, "errorLimit": { "record": 0, "percentage": 0.02 } } speed为同步速度限制参数,这里有三个参数channel、re 阅读全文
posted @ 2023-11-06 16:44 所向披靡zz 阅读(483) 评论(0) 推荐(0) 编辑
摘要:一、背景 datax同步postgre库表数据到hive表,同步完成后select报错 java.io.IOException: java.lang.IllegalArgumentException: Bucket ID out of range: -1 二、代码 1.hive 建表语句 creat 阅读全文
posted @ 2023-11-06 16:33 所向披靡zz 阅读(123) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示