随笔分类 - 问题排查
摘要:1. MetaSpace 容量临界导致的OOM和GC 问题表征 在某个节日来临之前的高峰期线上某服务突然频发fullGC,重启和新增实例后无明显改善 解决方法 经排查是metaspace设置的128m,已经临界并 达到上限 频繁GC也无法回收导致,查看GC日志看到是MetaSpace空间不足,对Me
阅读全文
摘要:问题描述 上周五晚上某核心服务出现大量超时,经过查看日志发现是由于出现长时间gc导致的。 GC时间接近1s,当大量并发的时候会导致服务处理超时 GC大概每7天出现一次,只是今天业务大幅上涨,感知才会更加明显 然后紧急把剩余未gc的一个节点内存dump下来,使用mat工具打开发现,com.mysql.
阅读全文
摘要:故障场景 某个服务凌晨0点之后突然出现接口调用超时,进入监控系统发现多台服务器先后出现了一次 IO 100% 的情况 。 问题原因 云服务商磁盘水位过高以后进行了新增,之后进行了数据迁移,导致业务日志无法进行写入,进而产生大量线程的阻塞,导致上游调用瞬间产生大量的超时。 处置方案 之前一直以为Log
阅读全文