记录一次内存泄漏排查
事件描述
order服务出现频繁GC告警,app卡顿
事件回顾
【2024-10-21 08:20:04】order出现频繁GC告警
【2024-10-21 09:24:04】通过命令jmap -histo:live [pid]查看存活对象发现sentinel统计对象占用大量内存
【2024-10-21 10:33:04】dump下堆内存信息
【2024-10-21 10:35:04】版本由2.7.0回退到2.4.0并通知到流控群。
事件回顾(排查分析)
【2024-10-11 15:57:00】根据dump的堆内存信息排查top5对象
查询引用发现LongAdder最终被ClusterNode的originCountMap引用,并且这个map存储很多元素
结合OQL进行针对性搜索ClusterNode并查看属性值。发现很多此类大对象
结合官方文档查看ClusterNode是干嘛
结合源码查看
com.alibaba.csp.sentinel.node.ClusterNode#getOrCreateOriginNode
最终导致服务内存得不到释放,频繁FullGC 导致用户卡顿
结论
sentinel二期增加了来源限流,支持根据客户端ip进行拉黑和限流.使用alibaba Adapter做扩展
com.alibaba.csp.sentinel.adapter.spring.webmvc.AbstractSentinelInterceptor#preHandle
com.yxt.starter.sentinel.spring.web.YxtCustomRequestOriginParser#getOrigin
因为直接面向用户的接口,前端存在轮询接口,用户手机网络ip随着位置移动基站变更,资源随着客户端ip变更和大量用户访问导致资源的计数器持续累加并且得不到释放。
事件影响
所有app用户使用app卡顿。
改进措施
针对来源限流,应先判断此接口是否有配置限流和黑白名单规则,并且这个客户端ip是否配置了限流和黑名单规则,如果未配置则不进行来源访问的统计
判断规则是否存在
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
2021-10-21 Spring Batch源码阅读-初始化(三)