摘要: 背景:kudu是好用,想直接hive操作,好像貌似只有hive 4.0.0 支持;还有一个就是纯粹测试。网上这种升级的帖子少,有自己编译过hive4.0.0源码升级的,我不会java啊。 升级是测试和研究,简单的步骤一口带过,有不足的地方各位看官凑合吧。 步骤: 下载hive apache-hive 阅读全文
posted @ 2023-01-05 13:50 Family_zp 阅读(327) 评论(1) 推荐(1)
摘要: 按照官网的步骤升级,错误一堆,直接安装3.0也可以,就是升级就缺字段。不知道是不是我的原因,没记录错误。有错误的可以交流。 老版本嘛,MYSQL数据库,下面的更新也是mysql的。 1、下载官网bin文件 https://dlcdn.apache.org/dolphinscheduler/3.0.1 阅读全文
posted @ 2022-10-12 17:24 Family_zp 阅读(219) 评论(0) 推荐(1)
摘要: 背景:因为感觉有的表数据量不是很大,hash分区给到16个不合理,而且,在mysqlbinlog、PG CDC kafka 方式实时录入kudu,磁盘IO很高,怀疑是这个问题,就将表重建 hash分区给到4个。 然鹅,在操作过程中遇到一些问题,起初建表都是直接impala 建的内部表,更改表名的时候 阅读全文
posted @ 2022-07-01 14:53 Family_zp 阅读(127) 评论(0) 推荐(0)
摘要: Streamsets提供两种方式同步Postgresql,一种是JDBC、query,另一种是CDC方式,实时同步需要两者结合来首次同步。 首先需要全表同步,采用JDBC方式比较好: 这个比同步Mysql方便,可以写多个模式多个表同时同步。 这个是完成一次同步就触发,不至于没有数据进来报错。下一次事 阅读全文
posted @ 2022-06-23 14:46 Family_zp 阅读(120) 评论(0) 推荐(0)
摘要: streamsets mysql的全量同步采用的读binlog文件实现,所以,源mysql数据库需要开启binlog日志。 废话不多说,直接上例子: 增量同步mysql配置:第一次全量同步,需要从binlog开始的位置开始同步, 也可以从设置的偏移量处开始。 Advanced 配置里面写需要同步的表 阅读全文
posted @ 2022-06-23 14:07 Family_zp 阅读(167) 评论(0) 推荐(0)
摘要: 三种方式根据需要弄哈;增量的,我觉得实际业务中,除非没有update操作才适合使用JDBC这种增量方式,不然都是扯犊子,毕竟hdfs对随机写不是很友好。这是全量的,慢的很。没有sqoop快。 1、JDBC Query Consumer (单表全量) 配置: JDBC Query Consumer 配 阅读全文
posted @ 2022-05-13 16:52 Family_zp 阅读(101) 评论(0) 推荐(0)
摘要: Streamsets 很好用,功能齐全,但是不开源了。Cloudera也是,很忧伤啊。 在接触Streamsets的时候,已经需要注册下载了,但是呢,注册不上。官方没有扼杀所有,可以自己编译。下载地址: https://codeload.github.com/designmind/datacolle 阅读全文
posted @ 2022-05-13 16:11 Family_zp 阅读(294) 评论(0) 推荐(0)
摘要: 不说环境了,都到了元数据管理,基本的需要的java、maven肯定是不可少的。 编译: 官网下载apache-atlas-2.2.0-sources.tar.gz解压 tar -zxvf apache-atlas-2.2.0-sources.tar.gz编译,进入目录 mvn clean -Dski 阅读全文
posted @ 2022-05-13 15:21 Family_zp 阅读(96) 评论(0) 推荐(1)
摘要: 今天用pandas 写数据到excel,里面有很多的网址,数据量不大,但是出现:since it exceeds Excel's limit of 65,530 URLS per worksheet 告警。说明白点就是写到excel的超链接数超过了65530行。 往上查到的解决办法都是: write 阅读全文
posted @ 2022-03-29 13:59 Family_zp 阅读(426) 评论(0) 推荐(0)
摘要: 阶段三 整合hive hue spark hbase master slave1 slave2 HDFS NameNode NameNode DataNode DataNode DataNode journalnode journalnode journalnode YARM Resourceman 阅读全文
posted @ 2021-08-09 17:52 Family_zp 阅读(32) 评论(0) 推荐(0)