黑水滴

2024年12月26日

IDEA debug时候直接报ClassNotFoundException，代码正常，也可以正常运行

摘要：原因，是因为在某些类误点了断点，需要取消阅读全文

posted @ 2024-12-26 17:38 黑水滴阅读(1) 评论(0) 推荐(0) 编辑

2024年11月22日

摘要：一、问题背景数据对比程序发现通过Flink cdc同步mysql写入Iceberg表运行一段时间后存在丢数问题，排查到丢数是由于hivemetastore钩子函数缺陷引起，由腾讯云EMR修复钩子函数作用：在查询表时，更新hivemetastore中表的最近访问时间产生丢数的原因：因钩子函数需要阅读全文

posted @ 2024-11-22 18:41 黑水滴阅读(21) 评论(0) 推荐(0) 编辑

2024年9月19日

Flink-cdc同步mysql到iceberg丢失数据排查

摘要：一、获取任务信息任务id：i01f51582-d8be-4262-aefa-000000 任务名称：ods_test1234 丢失的数据时间：2024-09-16 09:28:47 二、数据同步查看日志 1、筛选日志筛选2024-09-16 09:28:47 的前后5分钟后数据 2、查找快照id 阅读全文

posted @ 2024-09-19 10:20 黑水滴阅读(80) 评论(0) 推荐(0) 编辑

2024年8月2日

Apache Amoro数据湖管理和治理工具部署

摘要：一、Amoro介绍 2024 年 3 月 11 日，Amoro 项目顺利通过投票，正式进入 Apache 软件基金会（ASF，Apache Software Foundation）的孵化器，成为 ASF 的一个孵化项目。 Amoro 是建立在开放数据湖表格式之上的湖仓管理系统。2020 年开始，网阅读全文

posted @ 2024-08-02 17:55 黑水滴阅读(239) 评论(0) 推荐(0) 编辑

Iceberg根据快照查看文件，根据文件查看哪个快照写入

摘要：一、背景用户查询iceberg表时报文件为空，因为存在写入和治理程序同时操作iceberg表，需要查看空文件是哪个快照产生的，方便确定是flink写入缺陷还是spark治理缺陷二、通过Sql查询文件所属哪个快照（推荐查询方式）查询表的文件信息，根据data_file列信息筛选是哪个快照写入，s 阅读全文

posted @ 2024-08-02 16:48 黑水滴阅读(46) 评论(0) 推荐(0) 编辑

2024年7月17日

Iceberg v2表写入和微批治理冲突，如何保证治理准确性

摘要：一、背景微批治理任务分多个job治理一张表，还有一个Flink程序每5分钟一次写入iceberg表，如治理任务划分了20个job治理一张表，在治理期间存在新的数据更新，如何保证治理准确性二、治理时写入，快照对应信息 1、治理和写入时快照和文件变化 snapshot_id sequence num 阅读全文

posted @ 2024-07-17 09:23 黑水滴阅读(52) 评论(0) 推荐(0) 编辑

2024年7月12日

Iceberg metrics导致的问题

摘要：一、问题描述在iceberg rewrite时报错：org.apache.iceberg.exceptions.ValidationException: Cannot commit, found new delete for replaced data file 看信息像是对于要删除的DataFi 阅读全文

posted @ 2024-07-12 18:18 黑水滴阅读(66) 评论(0) 推荐(0) 编辑

2024年7月6日

ssh免密登录和代理连接线上服务器

摘要：一、本地ssh配置 1、本地没有.ssh目录，第一次初始化ssh，一直回车键默认值 ssh-keygen -t rsa -P '' 2、设置目录权限 chmod 700 -R .ssh 设置目录权限 3、公钥追加到本机 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authoriz 阅读全文

posted @ 2024-07-06 18:46 黑水滴阅读(67) 评论(0) 推荐(0) 编辑

2024年6月27日

Linux网络优化踩坑net.ipv4.tcp_tw_recycle

摘要：一、背景来源于埋点上报服务，埋点上报服务是用户打开APP后点击、浏览、曝光等数据都会上报到埋点服务，收集数据后用来公司运营。本次踩坑来源于监控到上课高峰期net.sockets.tcp.timewait达到系统设置的最大值5000，为了降低高峰期timewait数量，参考网上介绍可以调整三个参数阅读全文

posted @ 2024-06-27 11:31 黑水滴阅读(135) 评论(0) 推荐(0) 编辑

2024年5月17日

Flink同步kafka到iceberg数据延迟，两个checkpoint后才可查询

摘要：一、问题描述用户配置了高级参数很多，观察kafka增量数据不多，flink负载不高情况下两个checkpoint后才可查询到数据。排查时hdfs有数据文件产生，但是mainfast文件中最新快照id没变化。二、原因经腾讯排查，用户参数指定高级参数execution.checkpointing 阅读全文

posted @ 2024-05-17 14:45 黑水滴阅读(108) 评论(0) 推荐(0) 编辑

公告