2023 年 11月随笔档案 - 所向披靡zz

摘要：原文链接：https://blog.51cto.com/u_15851118/5811786?articleABtest=0 阅读全文

posted @ 2023-11-30 11:45 所向披靡zz 阅读(83) 评论(0) 推荐(0) 编辑

摘要：1、源库nummic-->hive decimal这个datax抽取的时候默认string，精度没丢失阅读全文

posted @ 2023-11-18 17:30 所向披靡zz 阅读(17) 评论(0) 推荐(0) 编辑

摘要：1、Sqoop有很好的并发性，DataX是单进程的。2、Sqoop只可以从关系型数据库导入hadoop,不支持关系型数据库之间以及大数据组件之间的数据迁移，例如MySQL-oracle，hive-hbase之间是不支持的。3、dataX都是支持的Sqoop本质是一个mapreduce的作业，而Dat 阅读全文

posted @ 2023-11-16 18:08 所向披靡zz 阅读(254) 评论(0) 推荐(0) 编辑

datax同步mysql数据时间减少8小时

摘要：mysql连接jdbc修改时区都不行 &serverTimezone=Asia/Shanghai &serverTimezone=Hongkong &serverTimezone=GMT%2B8 解决方案：对字段加8个小时 DATE_ADD(CREATETIME, INTERVAL 8 HOUR) 阅读全文

posted @ 2023-11-16 16:34 所向披靡zz 阅读(164) 评论(0) 推荐(0) 编辑

4 种 MySQL 同步 ES 方案

摘要：本文会先讲述数据同步的 4 种方案，并给出常用数据迁移工具 1.前言在实际项目开发中，我们经常将 MySQL 作为业务数据库，ES 作为查询数据库，用来实现读写分离，缓解 MySQL 数据库的查询压力，应对海量数据的复杂查询。这其中有一个很重要的问题，就是如何实现 MySQL 数据库和 ES 的数阅读全文

posted @ 2023-11-13 09:40 所向披靡zz 阅读(1009) 评论(0) 推荐(0) 编辑

datax对接hdfs

摘要：https://kb.transwarp.cn/posts/1055 阅读全文

posted @ 2023-11-10 15:20 所向披靡zz 阅读(8) 评论(0) 推荐(0) 编辑

datax优化

摘要：https://www.jianshu.com/p/2713e2679232 阅读全文

posted @ 2023-11-10 14:37 所向披靡zz 阅读(7) 评论(0) 推荐(0) 编辑

datax抽取mysql数据到hive报错：javax.net.ssl.SSLException: Connection reset

摘要：datax抽取mysql数据报错： [INFO] 2023-11-09 12:35:14.090 +0000 - -> 2023-11-09 20:35:13.492 [0-0-0-reader] ERROR ReaderRunner - Reader runner Received Excepti 阅读全文

posted @ 2023-11-10 10:39 所向披靡zz 阅读(507) 评论(0) 推荐(0) 编辑

hive事务得设置

摘要：1. 通过命令行方式开启事务，当前session有效 set hive.support.concurrency = true; set hive.enforce.bucketing = true; set hive.exec.dynamic.partition.mode = nonstrict; s 阅读全文

posted @ 2023-11-08 19:59 所向披靡zz 阅读(95) 评论(0) 推荐(0) 编辑

hive ACID事务得应用场景

摘要：Hive的ACID语义可以完成以下使用场景: 1、流数据的接入。许多用户都使用 Apache Flume, Apache Storm, or Apache Kafka 将流式数据导入Hadoop集群。这些工具都是每秒百万行级的数据写入，而Hive只能每十五分钟到一个小时添加一次分区。快速的增加分区阅读全文

posted @ 2023-11-08 19:54 所向披靡zz 阅读(60) 评论(0) 推荐(0) 编辑

hive3.0新特性

摘要：hive3.0新特性： 1、不再支持MR取而用Tez查询引警且支持两种查询模式.Container 和 LLAP 2、Hive CLI不再支持(被beeline取代) 3、SQL Standard Authorization 不再支持，且默认建的表就已经是ACID表。 4、支持“批查询”(TEZ) 阅读全文

posted @ 2023-11-08 19:44 所向披靡zz 阅读(216) 评论(0) 推荐(0) 编辑

datax 配置

摘要："job": { "setting": { "speed": { "channel": 3, "byte": 1048576 }, "errorLimit": { "record": 0, "percentage": 0.02 } } speed为同步速度限制参数，这里有三个参数channel、re 阅读全文

posted @ 2023-11-06 16:44 所向披靡zz 阅读(483) 评论(0) 推荐(0) 编辑

datax报错：bucketId out of range: -1 (state=,code=0)

摘要：一、背景 datax同步postgre库表数据到hive表，同步完成后select报错 java.io.IOException: java.lang.IllegalArgumentException: Bucket ID out of range: -1 二、代码 1.hive 建表语句 creat 阅读全文

posted @ 2023-11-06 16:33 所向披靡zz 阅读(123) 评论(0) 推荐(0) 编辑

11 2023 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论