02 2023 档案

摘要:Flink读取kafka数据写入hdfs,生成了带下划线的文件名,创建hive表指定该路径,发现数据读取不出来。 查阅源码,原来是会忽悠带下划线和.的文件。 阅读全文
posted @ 2023-02-28 15:51 人不疯狂枉一生 阅读(35) 评论(0) 推荐(0) 编辑
摘要:1.背景 最近在整理以往写的项目,需要把所有做过的项目全部放到一个git地址上,整理过程中,准备再测试一下Flink程序,结果程序无法启动,就只有跟着报错一个一个的踩坑。 2.实施步骤 (1)报无法加载主类,查阅代码以往有些代码和jar包是注释掉的,这次整理代码把注释干掉了,导致很多包引用进来,猜测 阅读全文
posted @ 2023-02-27 18:03 人不疯狂枉一生 阅读(574) 评论(0) 推荐(0) 编辑
摘要:1.数据库引擎初识 数据引擎大致包含数据结构、存储形式、数据关系、数据更新方式、高效增删改查、日志,围绕这几个方面进行相应权重处理,得到不一样的效果,内容可以整理为如下图: 2.Hudi了解 Hudi提供两种读写方式,一种读时合并,另一种是写时复制,简单的说就是充分利用顺序写,然后加上相关索引等机制 阅读全文
posted @ 2023-02-22 09:03 人不疯狂枉一生 阅读(395) 评论(0) 推荐(0) 编辑
摘要:一.背景 最近发现一个大坑,一个分区事实表(天分区)关联一个时间表用于对时间范围内的分区数据进行统计,结果速度超慢,通过explain分析需要在where条件后面加上对分区的大致筛选范围才会有速度提升,看来Tez引擎并没有按照我们想象的那样根据join的表来筛选数据范围。 二.分析 1.查看没有wh 阅读全文
posted @ 2023-02-17 11:06 人不疯狂枉一生 阅读(59) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示