转发 Java火焰图在Netflix的实践

为了分析不同软件或软件的不同版本使用CPU的情况，相关设计人员通常需要进行函数的堆栈性能分析。相比于定期采样获得数据的方式，利用定时中断来收集程序运行时的PC寄存器值、函数地址以及整个堆栈轨迹更加高效。目前，OProfile、gprof和SystemTap等工具都是采用该方法，给出详细的CPU使用情况报告。然而，这些工具在处理复杂的统计数据时，给出的报告往往过于繁杂、不够直观、不能直接反应分析员所需要的数据。为此，Brendan Gregg开发了专门把采样到的堆栈轨迹（Stack Trace）转化为直观图片显示的工具——Flame Graph（火焰图）。但是，由于分析器与JDK环境等原因，Java程序的混合模式火焰图之前无法生成。近期，Brendan Gregg和Martin Spier发现了一种解决该问题的方法，在Netflix内部进行了实践，并贡献了一篇非常详尽的实践性文章。为Java程序的性能分析提供了极大便利。接下来，本文就从该问题出现的原因开始，简要介绍其解决该问题的思路和方法。

首先，本文对火焰图的概念进行简要介绍。火焰图既是一个开源工具，也是一种类型的图片。作为一个二维图片，火焰图的X轴代表采样总量，而Y轴代表栈深度。每个框就代表了一个栈里的函数，其宽度代表了所占用的CPU总时间。因此，比较宽的框就表示该函数运行时间较慢或被调用次数较多，从而占用的CPU时间多。通过火焰图，相关设计或分析人员就可以轻松观察到各个应用占用CPU的情况。

但是，火焰图本身并不具备性能检测的能力。它需要其他性能分析工具的协助。在Java环境中，一共有两种类型的堆栈轨迹采样分析器——系统分析器（System Profiler）和JVM分析器（JVM Profiler）。前者（如Linux的Perf Events）可以分析系统代码路径，包括libjvm internal、GC和内核，但并不能分析Java方法；后者（如HPROF、轻量级Java分析器和其他商业分析器）可以显示Java方法，但不能显示系统代码路径。由此可见，这两种方法都不能同时支持系统代码路径和Java方法的堆栈轨迹。而分别描述二者的火焰图又不能很好的满足需求。因此，Brendan等人一直关注如何解决该问题。

在之前的一次讨论中，Brendan曾经对系统分析器不能显示Java方法的原因进行分析。这包括两个方面——JVM编译方法时比较快，没有为系统分析器暴露一个符号表；JVM采用x86上的frame pointer作为一个通用寄存器，破坏了传统的stack walking。那么，解决之前的问题，就需要分别从这两个方面入手。对于第一个方面，Java和Linux系统的分析器进行了双方面的努力。首先，Java开始支持利用开源的JVMTI代理perf-map-agent来创建perf-PID.map文本文件。该文件列举了16进制的符号地址、大小以及符号名称。然后，从2009年以后，Linux中的Perf_events工具添加了对JIT符号的支持。该工具会检查/tmp/perf-PID.map文件，从而完成对来自语言虚拟机的符号进行检查。对于第二个方面，JVM添加了一个新的选项-XX:+PreserveFramePointer。经过Zoltán、Oracle和其他工程师的努力，最新的JDK9和JDK8已经增加了该选项，从而保存了stack walking。

在两方面的问题都解决之后，用户只要经过安装Perf Events、新版JDK、perf-map-agent以及FlameGraph等软件和配置Java（尤其是打开-XX:+PreserveFramePointer选项）的步骤后，就可以产生系统级的火焰图了。为了让产生火焰图的流程自动化，Brendan等人已经开始基于开源的实例化分析工具Vector进行流程的建模。

未来，Breden等人还计划进行很多工作。其一是通过自动化收集不同日期的差分火焰图进行规则分析。这有助于迅速理解软件变化所导致的CPU使用率变化。此外，他们还试图利用Perf Events进行磁盘IO、网络、调度以及内存分配等用户和内核级的事件记录和分析。最后，对火焰图和Vector进行实时更新等改进也是未来考虑增加的功能。

posted on 2017-07-05 21:15 荣锋亮阅读(977) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2015-07-05 将内网映射到外网的工具

rongfengliang-荣锋亮

转发 Java火焰图在Netflix的实践

导航

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (3865)

随笔档案 (4865)

文章分类 (205)

文章档案 (175)

.net 安全揭秘

DB

geohash 学习

graphql

IE 浏览器

IIS

IOT

open xml

REST 设计

sharepoint

sql server CLR

SSIS 学习

UML

vsto

web

Web service

windows 服务

插件开发

复杂事件处理

技术

类库

流量分析

敏捷

移动

运维

阅读排行榜

评论排行榜

推荐排行榜

最新评论