会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Robots2
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
4
5
6
7
8
9
10
11
12
···
34
下一页
2024年7月12日
Iceberg metrics导致的问题
摘要: 一、问题描述 在iceberg rewrite时报错:org.apache.iceberg.exceptions.ValidationException: Cannot commit, found new delete for replaced data file 看信息像是对于要删除的DataFi
阅读全文
posted @ 2024-07-12 18:18 Robots2
阅读(157)
评论(0)
推荐(0)
2024年7月6日
ssh免密登录和代理连接线上服务器
摘要: 一、本地ssh配置 1、本地没有.ssh目录,第一次初始化ssh,一直回车键默认值 ssh-keygen -t rsa -P '' 2、设置目录权限 chmod 700 -R .ssh 设置目录权限 3、公钥追加到本机 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authoriz
阅读全文
posted @ 2024-07-06 18:46 Robots2
阅读(133)
评论(0)
推荐(0)
2024年6月27日
Linux网络优化踩坑net.ipv4.tcp_tw_recycle
摘要: 一、背景 来源于埋点上报服务,埋点上报服务是用户打开APP后点击、浏览、曝光等数据都会上报到埋点服务,收集数据后用来公司运营。 本次踩坑来源于监控到上课高峰期net.sockets.tcp.timewait达到系统设置的最大值5000,为了降低高峰期timewait数量,参考网上介绍可以调整三个参数
阅读全文
posted @ 2024-06-27 11:31 Robots2
阅读(331)
评论(0)
推荐(0)
2024年5月17日
Flink同步kafka到iceberg数据延迟,两个checkpoint后才可查询
摘要: 一、问题描述 用户配置了高级参数很多,观察kafka增量数据不多,flink负载不高情况下两个checkpoint后才可查询到数据。 排查时hdfs有数据文件产生,但是mainfast文件中最新快照id没变化。 二、原因 经腾讯排查,用户参数指定高级参数execution.checkpointing
阅读全文
posted @ 2024-05-17 14:45 Robots2
阅读(204)
评论(0)
推荐(0)
2024年5月16日
Flink同步kafka到iceberg(cos存储)
摘要: 一、flink到logger 1、source create table source_table ( id bigint comment '唯一编号' ,order_number bigint comment '订单编号' ,update_timestamp timestamp_ltz metad
阅读全文
posted @ 2024-05-16 17:44 Robots2
阅读(209)
评论(0)
推荐(0)
2024年5月14日
Flink同步mysql到iceberg
摘要: 一、如何做一致性保障 1、全量数据分片读取,增量数据单并发读取,保证增量阶段不会乱序2、全量阶段写入失败会清空表后重新写入,避免重复数据。3、全量阶段多task并行读取,把每个task开始结束时间提交给Flink Coordinator,由Coordinator做时间合并后,仅读取一次全量同步区间内
阅读全文
posted @ 2024-05-14 10:41 Robots2
阅读(106)
评论(0)
推荐(0)
2024年5月13日
EMR集群信息查看-Hive
摘要: 一、日志 1、hivemetastore日志 简介:查看运行情况,其它组件会通过hivemetastore获取表信息 tail -f /data/emr/hive/logs/hadoop-hivemetastore 二、连接 1、登录hive客户端(指定hivemetastore地址) hive -
阅读全文
posted @ 2024-05-13 18:38 Robots2
阅读(65)
评论(0)
推荐(0)
2024年4月26日
Iceberg 待学习链接
摘要: 1、Iceberg事务特性解读 https://blog.csdn.net/naisongwen/article/details/123343566 2、FLink全链路时延—测量方式 https://www.cnblogs.com/felixzh/p/15392228.html 3、Flink E
阅读全文
posted @ 2024-04-26 14:35 Robots2
阅读(36)
评论(0)
推荐(0)
2024年4月25日
在flink消费一段时间kafka后,kafka-group的offset被重置了是怎么回事?
摘要: 一、背景 腾讯Flink使用 KafkaSource API创建source端,源码中默认开启了checkpoint的时候提交offset 到kafka-broker。读取kafka数据写入到iceberg 目前发现一个问题,就是消费数据的时候,消费一段时间后,kafka-group的 offset
阅读全文
posted @ 2024-04-25 15:05 Robots2
阅读(660)
评论(0)
推荐(0)
Flink CDC全量和增量同步数据如何保证数据的一致性
摘要: Apache Flink 的 Change Data Capture (CDC) 功能主要用于实时捕获数据库中的变更记录,并将其转换为事件流以供下游处理。为了保证全量和增量数据同步时数据的一致性、不丢失和不重复读取,Flink CDC 采用了以下策略: 一、保证一致性与不丢失 1、使用事务 当进行全
阅读全文
posted @ 2024-04-25 10:25 Robots2
阅读(2971)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
34
下一页
公告