微服务应用线上性能分析
每天线程数在16:12增加,后通过jmx监控程序为,微服务业务线程增加,因为多个业务几乎每个业务统一时间16:12线程数
增加后,tp99狂飙1000倍,在系统工程师支持下查到为线上16:12执行磁盘清理文件,停止后系统线程数正常,tp99正常。
其中的一个应用平时线程数也会超过400个平时为80/90后观察到和fullgc强相关,后续需要调整gc算法避免暂停时间
过长导致线程数增加。
总结应用请求数越多,外部比如fullgc、外部程序执行比如清理磁盘程序对程序的影响越大,这时候需要尽量避免在业务量调用
大的时候对程序造成影响。
不容易解决的问题需要花费时间持续关注。
遇到一个线上tcp冲传数增加,tp99上升的情况,其他情况变化不大,tcp重传的波动和tp99的波动类似,大体上能够对应上
但还需要持续关注一下。
念念不忘,必有回响。