11 2023 档案
摘要:原文链接:https://blog.51cto.com/u_15851118/5811786?articleABtest=0
阅读全文
摘要:1、源库nummic-->hive decimal这个datax抽取的时候默认string,精度没丢失
阅读全文
摘要:1、Sqoop有很好的并发性,DataX是单进程的。2、Sqoop只可以从关系型数据库导入hadoop,不支持关系型数据库之间以及大数据组件之间的数据迁移,例如MySQL-oracle,hive-hbase之间是不支持的。3、dataX都是支持的Sqoop本质是一个mapreduce的作业,而Dat
阅读全文
摘要:mysql连接jdbc修改时区都不行 &serverTimezone=Asia/Shanghai &serverTimezone=Hongkong &serverTimezone=GMT%2B8 解决方案: 对字段加8个小时 DATE_ADD(CREATETIME, INTERVAL 8 HOUR)
阅读全文
摘要:本文会先讲述数据同步的 4 种方案,并给出常用数据迁移工具 1.前言 在实际项目开发中,我们经常将 MySQL 作为业务数据库,ES 作为查询数据库,用来实现读写分离,缓解 MySQL 数据库的查询压力,应对海量数据的复杂查询。这其中有一个很重要的问题,就是如何实现 MySQL 数据库和 ES 的数
阅读全文
摘要:https://kb.transwarp.cn/posts/1055
阅读全文
摘要:https://www.jianshu.com/p/2713e2679232
阅读全文
摘要:datax抽取mysql数据报错: [INFO] 2023-11-09 12:35:14.090 +0000 - -> 2023-11-09 20:35:13.492 [0-0-0-reader] ERROR ReaderRunner - Reader runner Received Excepti
阅读全文
摘要:1. 通过命令行方式开启事务,当前session有效 set hive.support.concurrency = true; set hive.enforce.bucketing = true; set hive.exec.dynamic.partition.mode = nonstrict; s
阅读全文
摘要:Hive的ACID语义可以完成以下使用场景: 1、流数据的接入。许多用户都使用 Apache Flume, Apache Storm, or Apache Kafka 将流式数据导入Hadoop集群。 这些工具都是每秒百万行级的数据写入,而Hive只能每十五分钟到一个小时添加一次分区。快速的增加分区
阅读全文
摘要:hive3.0新特性: 1、不再支持MR取而用Tez查询引警且支持两种查询模式.Container 和 LLAP 2、Hive CLI不再支持(被beeline取代) 3、SQL Standard Authorization 不再支持,且默认建的表就已经是ACID表。 4、支持“批查询”(TEZ)
阅读全文
摘要:"job": { "setting": { "speed": { "channel": 3, "byte": 1048576 }, "errorLimit": { "record": 0, "percentage": 0.02 } } speed为同步速度限制参数,这里有三个参数channel、re
阅读全文
摘要:一、背景 datax同步postgre库表数据到hive表,同步完成后select报错 java.io.IOException: java.lang.IllegalArgumentException: Bucket ID out of range: -1 二、代码 1.hive 建表语句 creat
阅读全文