会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
familyzp
博客园
首页
新随笔
联系
订阅
管理
2023年1月5日
CDH6.2.0 单独升级HIVE到4.0.0并整合KUDU
摘要: 背景:kudu是好用,想直接hive操作,好像貌似只有hive 4.0.0 支持;还有一个就是纯粹测试。网上这种升级的帖子少,有自己编译过hive4.0.0源码升级的,我不会java啊。 升级是测试和研究,简单的步骤一口带过,有不足的地方各位看官凑合吧。 步骤: 下载hive apache-hive
阅读全文
posted @ 2023-01-05 13:50 Family_zp
阅读(327)
评论(1)
推荐(1)
2022年10月12日
dolphinscheduler版本1.3 跨版本升级到3.0
摘要: 按照官网的步骤升级,错误一堆,直接安装3.0也可以,就是升级就缺字段。不知道是不是我的原因,没记录错误。有错误的可以交流。 老版本嘛,MYSQL数据库,下面的更新也是mysql的。 1、下载官网bin文件 https://dlcdn.apache.org/dolphinscheduler/3.0.1
阅读全文
posted @ 2022-10-12 17:24 Family_zp
阅读(219)
评论(0)
推荐(1)
2022年7月1日
impala+kudu 修改内部表表名详细步骤。
摘要: 背景:因为感觉有的表数据量不是很大,hash分区给到16个不合理,而且,在mysqlbinlog、PG CDC kafka 方式实时录入kudu,磁盘IO很高,怀疑是这个问题,就将表重建 hash分区给到4个。 然鹅,在操作过程中遇到一些问题,起初建表都是直接impala 建的内部表,更改表名的时候
阅读全文
posted @ 2022-07-01 14:53 Family_zp
阅读(127)
评论(0)
推荐(0)
2022年6月23日
Streamsets Postgresql 实时同步到Kudu
摘要: Streamsets提供两种方式同步Postgresql,一种是JDBC、query,另一种是CDC方式,实时同步需要两者结合来首次同步。 首先需要全表同步,采用JDBC方式比较好: 这个比同步Mysql方便,可以写多个模式多个表同时同步。 这个是完成一次同步就触发,不至于没有数据进来报错。下一次事
阅读全文
posted @ 2022-06-23 14:46 Family_zp
阅读(120)
评论(0)
推荐(0)
streamsets 实时同步mysql到kudu
摘要: streamsets mysql的全量同步采用的读binlog文件实现,所以,源mysql数据库需要开启binlog日志。 废话不多说,直接上例子: 增量同步mysql配置:第一次全量同步,需要从binlog开始的位置开始同步, 也可以从设置的偏移量处开始。 Advanced 配置里面写需要同步的表
阅读全文
posted @ 2022-06-23 14:07 Family_zp
阅读(167)
评论(0)
推荐(0)
2022年5月13日
Streamsets Mysql全量导同步到hive
摘要: 三种方式根据需要弄哈;增量的,我觉得实际业务中,除非没有update操作才适合使用JDBC这种增量方式,不然都是扯犊子,毕竟hdfs对随机写不是很友好。这是全量的,慢的很。没有sqoop快。 1、JDBC Query Consumer (单表全量) 配置: JDBC Query Consumer 配
阅读全文
posted @ 2022-05-13 16:52 Family_zp
阅读(101)
评论(0)
推荐(0)
Streamsets 3.23.0编译安装
摘要: Streamsets 很好用,功能齐全,但是不开源了。Cloudera也是,很忧伤啊。 在接触Streamsets的时候,已经需要注册下载了,但是呢,注册不上。官方没有扼杀所有,可以自己编译。下载地址: https://codeload.github.com/designmind/datacolle
阅读全文
posted @ 2022-05-13 16:11 Family_zp
阅读(294)
评论(0)
推荐(0)
CDH6.2.0 集成Apache atlas 详细的编译安装
摘要: 不说环境了,都到了元数据管理,基本的需要的java、maven肯定是不可少的。 编译: 官网下载apache-atlas-2.2.0-sources.tar.gz解压 tar -zxvf apache-atlas-2.2.0-sources.tar.gz编译,进入目录 mvn clean -Dski
阅读全文
posted @ 2022-05-13 15:21 Family_zp
阅读(96)
评论(0)
推荐(1)
2022年3月29日
since it exceeds Excel‘s limit of 65,530 URLS per worksheet
摘要: 今天用pandas 写数据到excel,里面有很多的网址,数据量不大,但是出现:since it exceeds Excel's limit of 65,530 URLS per worksheet 告警。说明白点就是写到excel的超链接数超过了65530行。 往上查到的解决办法都是: write
阅读全文
posted @ 2022-03-29 13:59 Family_zp
阅读(426)
评论(0)
推荐(0)
2021年8月9日
Apache Hadoop 整合 hive hue spark hbase
摘要: 阶段三 整合hive hue spark hbase master slave1 slave2 HDFS NameNode NameNode DataNode DataNode DataNode journalnode journalnode journalnode YARM Resourceman
阅读全文
posted @ 2021-08-09 17:52 Family_zp
阅读(32)
评论(0)
推荐(0)
下一页
公告