1、通道计量数据延迟不显示优化
1)背景
日志通道里数据延迟无法展示
2)问题定位分析
![]()
![]()
3)问题解决
缩小默认查询时间,降低数据库查询压力。
2、kafka消费数据不展示,消费组有流量
![]()
![]()
2)问题定位
首先检查用户配置是否正确,如果用户配置错了消费组id,是有可能出现消费组相关监控不显示的情况的。检查后,配置无误。
![]()
那只有一种可能,kafka consumer 并未提交offset
![]()
![]()
初步怀疑是checkpoint未能正常提交,且enable.auto.commint的值为false,符合猜测。
检测checkPoint监控,无数据展示。
3、kafka topic迁移与分区扩展
1)背景
森华集群频繁出现kafka宕机的情况。经分析有节点过载了,导致副本拉取跟不上,很多副本掉线。先是移除了部分副本拉取,降低节点负载。
然后晚上加回副本,又导致了过载,还触发了一个kafka的副本同步的bug,导致拉取线程崩溃,只有重启才能恢复拉取线程。
2)步骤
1. 将已经加成双副本的topic进行leader切换,降低12.11和12.12的机器负载
有可能造成Flink任务失败
2. 上线1台机器(id编号1721423),用于对gnome__voicesemantic_channel及gnome__voicetts_channel topic的删除后下线(无风险,已验证)
3. 上线两台机器,降低gnome-request-channel存储, 迁移leader到对应的节点(共24个),降低其他节点负载
4. 依次排空目前线上4个节点(脚本已实现,风险点在于排空的过程中会造成其余7个节点压力增加,12点后集群仅为之前一半的流量,风险较小)
注意:期间大数据量的topic进行降低存储操作,降低拉取数据过大的风险,调整前需要通过kafka-manager检查消费积压情况,视情况调整保留时长(已确认哪些topic需要进行修改)
5. 迁移gnome__request_channel到排空的4节点
3)目前集群运行较为稳定