kafka & kafka connect常规维护

1、通道计量数据延迟不显示优化

1)背景

日志通道里数据延迟无法展示

2)问题定位分析

 

 

3)问题解决

缩小默认查询时间,降低数据库查询压力。

 

2、kafka消费数据不展示,消费组有流量

 2)问题定位

首先检查用户配置是否正确,如果用户配置错了消费组id,是有可能出现消费组相关监控不显示的情况的。检查后,配置无误。

 

那只有一种可能,kafka consumer 并未提交offset

 

 初步怀疑是checkpoint未能正常提交,且enable.auto.commint的值为false,符合猜测。

检测checkPoint监控,无数据展示。

3、kafka topic迁移与分区扩展

1)背景

森华集群频繁出现kafka宕机的情况。经分析有节点过载了,导致副本拉取跟不上,很多副本掉线。先是移除了部分副本拉取,降低节点负载。

然后晚上加回副本,又导致了过载,还触发了一个kafka的副本同步的bug,导致拉取线程崩溃,只有重启才能恢复拉取线程。
broker 压力过大,需要扩容。
 
2)步骤
1. 将已经加成双副本的topic进行leader切换,降低12.11和12.12的机器负载
有可能造成Flink任务失败
2. 上线1台机器(id编号1721423),用于对gnome__voicesemantic_channel及gnome__voicetts_channel topic的删除后下线(无风险,已验证)
3. 上线两台机器,降低gnome-request-channel存储, 迁移leader到对应的节点(共24个),降低其他节点负载
4. 依次排空目前线上4个节点(脚本已实现,风险点在于排空的过程中会造成其余7个节点压力增加,12点后集群仅为之前一半的流量,风险较小)
注意:期间大数据量的topic进行降低存储操作,降低拉取数据过大的风险,调整前需要通过kafka-manager检查消费积压情况,视情况调整保留时长(已确认哪些topic需要进行修改)

5. 迁移gnome__request_channel到排空的4节点
 
3)目前集群运行较为稳定
 
posted @ 2022-06-15 16:10  爱晴天  阅读(301)  评论(0)    收藏  举报