翔云

Just try, don't shy. 最新文章请点击
随笔 - 294, 文章 - 0, 评论 - 27, 阅读 - 49万
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

orchestrator raft leader频繁变化问题

Posted on   翔云123456  阅读(218)  评论(0编辑  收藏  举报

最近在使用orchestrator的过程中,遭遇了严重的问题。
最初上线的几个月里,raft leader非常稳定。
但随着时间的推移,raft leader 频繁变化的问题就爆发了。

leader的变化,直接原因,就是leader没有按时发送heartbeat,从而触发了选举机制。

第一个怀疑的原因,就是网络抖动,出现丢包。但是,通过查看监控数据,发现没有丢包迹象。接着,通过tcpdump抓包,也证实没有数据丢失。

第二个怀疑的是,raft的代码实现有问题。查看github仓库,已经很长时间没有release了。翻看issue,找到2个相似的,但这些issue没有追查询下去,最后没有什么具体结论就关闭了。

第三个怀疑的是,系统负载和内存使用。
从监控数据看,16核机器,负载在1左右徘徊。16G内存,空闲率在30%-50%,偶尔某台机器低于10%。
从这些数据看,无法确切判定,就是机器资源耗尽导致的。

接着使用pprof查看goroutine、内存情况,并抓trace,发现snapshot操作出现大量堆积,多的时候有9000+goroutine。
在内存使用上,snapshot也是消耗最多的。
由于频繁申请大量内存,GC次数和耗时出现严重增加。
这样,就影响了goroutine的调度,尤其是对时间敏感的goroutine,例如hearbeat,导致其发送时间延后。

关于snapshot的为什么消耗内存,下次再具体介绍。

编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
点击右上角即可分享
微信分享提示