Family_zp - 博客园

2023年1月5日

摘要：背景：kudu是好用，想直接hive操作，好像貌似只有hive 4.0.0 支持；还有一个就是纯粹测试。网上这种升级的帖子少，有自己编译过hive4.0.0源码升级的，我不会java啊。升级是测试和研究，简单的步骤一口带过，有不足的地方各位看官凑合吧。步骤：下载hive apache-hive 阅读全文

posted @ 2023-01-05 13:50 Family_zp 阅读(387) 评论(1) 推荐(1)

2022年10月12日

dolphinscheduler版本1.3 跨版本升级到3.0

摘要：按照官网的步骤升级，错误一堆，直接安装3.0也可以，就是升级就缺字段。不知道是不是我的原因，没记录错误。有错误的可以交流。老版本嘛，MYSQL数据库，下面的更新也是mysql的。 1、下载官网bin文件 https://dlcdn.apache.org/dolphinscheduler/3.0.1 阅读全文

posted @ 2022-10-12 17:24 Family_zp 阅读(227) 评论(0) 推荐(1)

2022年7月1日

impala+kudu 修改内部表表名详细步骤。

摘要：背景：因为感觉有的表数据量不是很大，hash分区给到16个不合理，而且，在mysqlbinlog、PG CDC kafka 方式实时录入kudu，磁盘IO很高，怀疑是这个问题，就将表重建 hash分区给到4个。然鹅，在操作过程中遇到一些问题，起初建表都是直接impala 建的内部表，更改表名的时候阅读全文

posted @ 2022-07-01 14:53 Family_zp 阅读(154) 评论(0) 推荐(0)

2022年6月23日

Streamsets Postgresql 实时同步到Kudu

摘要： Streamsets提供两种方式同步Postgresql，一种是JDBC、query，另一种是CDC方式，实时同步需要两者结合来首次同步。首先需要全表同步，采用JDBC方式比较好：这个比同步Mysql方便，可以写多个模式多个表同时同步。这个是完成一次同步就触发，不至于没有数据进来报错。下一次事阅读全文

posted @ 2022-06-23 14:46 Family_zp 阅读(126) 评论(0) 推荐(0)

streamsets 实时同步mysql到kudu

摘要： streamsets mysql的全量同步采用的读binlog文件实现，所以，源mysql数据库需要开启binlog日志。废话不多说，直接上例子：增量同步mysql配置：第一次全量同步，需要从binlog开始的位置开始同步，也可以从设置的偏移量处开始。 Advanced 配置里面写需要同步的表阅读全文

posted @ 2022-06-23 14:07 Family_zp 阅读(184) 评论(0) 推荐(0)

2022年5月13日

Streamsets Mysql全量导同步到hive

摘要：三种方式根据需要弄哈；增量的，我觉得实际业务中，除非没有update操作才适合使用JDBC这种增量方式，不然都是扯犊子，毕竟hdfs对随机写不是很友好。这是全量的，慢的很。没有sqoop快。 1、JDBC Query Consumer （单表全量）配置： JDBC Query Consumer 配阅读全文

posted @ 2022-05-13 16:52 Family_zp 阅读(125) 评论(0) 推荐(0)

Streamsets 3.23.0编译安装

摘要： Streamsets 很好用，功能齐全，但是不开源了。Cloudera也是，很忧伤啊。在接触Streamsets的时候，已经需要注册下载了，但是呢，注册不上。官方没有扼杀所有，可以自己编译。下载地址： https://codeload.github.com/designmind/datacolle 阅读全文

posted @ 2022-05-13 16:11 Family_zp 阅读(333) 评论(0) 推荐(0)

CDH6.2.0 集成Apache atlas 详细的编译安装

摘要：不说环境了，都到了元数据管理，基本的需要的java、maven肯定是不可少的。编译：官网下载apache-atlas-2.2.0-sources.tar.gz解压 tar -zxvf apache-atlas-2.2.0-sources.tar.gz编译，进入目录 mvn clean -Dski 阅读全文

posted @ 2022-05-13 15:21 Family_zp 阅读(109) 评论(0) 推荐(1)

2022年3月29日

since it exceeds Excel‘s limit of 65,530 URLS per worksheet

摘要：今天用pandas 写数据到excel，里面有很多的网址，数据量不大，但是出现：since it exceeds Excel's limit of 65,530 URLS per worksheet 告警。说明白点就是写到excel的超链接数超过了65530行。往上查到的解决办法都是： write 阅读全文

posted @ 2022-03-29 13:59 Family_zp 阅读(486) 评论(0) 推荐(0)

2021年8月9日

Apache Hadoop 整合 hive hue spark hbase

摘要：阶段三整合hive hue spark hbase master slave1 slave2 HDFS NameNode NameNode DataNode DataNode DataNode journalnode journalnode journalnode YARM Resourceman 阅读全文

posted @ 2021-08-09 17:52 Family_zp 阅读(45) 评论(0) 推荐(0)

familyzp

公告