服务链路追踪 —— SpringCloud Sleuth

Sleuth 简介

随着业务的发展,系统规模变得越来越大,微服务拆分越来越细,各微服务间的调用关系也越来越复杂。客户端请求在后端系统中会经过多个不同的微服务调用来协同产生最后的请求结果,几平每一个请求都会形成一个复杂的分布式服务调用链路,在每条链路中任何一个依赖服务出现延迟超时或者错误都有可能引起整个请求最后的失败

这时需要一个能够监控微服务整个调用链的工具,跟踪一个用户请求的全过程(包括数据采集、数据传输、数据存储、数据分析、数据可视化),捕获这些跟踪数据,构建微服务整个调用链的视图,Spring Cloud Sleuth 就是这样一个工具

服务追踪系统的实现主要包括三个部分:

  • 埋点数据收集:负责在服务端进行埋点,以收集服务调用的上下文数据
  • 实时数据处理:负责将收集到的链路信息按照 TraceId 和 SpanId 进行串联和存储
  • 数据链路展示:把处理后的服务调用数据按照调用链的形式展示出来

下面我们再来看一下 Sleuth 的核心概念

  • Trace:一组 Span 的集合,表示一条调用链路,例如,服务 A 调用服务 B,再调用服务 C,A-B-C 链路就是一条 Trace,每个服务(例如 B)就是一个Span,如果在服务 B 中再加入两个线程,分别调用了 D、E,那么 D、E 就是 B 的子 Span
  • TraceId:全局跟踪 ID,用来标记一次完整服务调用,所以一次服务调用相关的 Span 的 Traceld 都是相同的
  • Span:基本工作单元,通过 64 位 ID 唯一标识,Span 还包含其他数据信息,比如摘要、时间藏事件、关键值注释 (tags)、Span 的 ID 以及进度 ID(通常是 IP 地址)
  • Id:Span 的 ID,只要做到一个 Traceld 下唯一即可
  • Parentld:父 Span 的 ID,调用有层级关系,所以 Span 作为调用节点的存储结构,也有层级关系
  • Annotation:基本标注列表,用来及时记录一个事件的存在,一个标注可以理解成 Span 生命周期中重要时刻的数据快照,比如一个标注中一般包含发生时刻(timestamp)、事件类型(value)、端点(endpoint)等信息,事件类型包括以下几种:
    • cs(Clien Sent):客户端发起一个请求,这个 Annotion 注解描述 Span 的开始
    • sr(ServerReceived):服务端获得请求并准备开始处理它,sr 减去 cs 即网络延迟时间
    • ss(Server Sent):表明请求处理的完成(请求返回客户端),ss 减去 sr 即服务端需要的处理请求时间
    • cr(Client Received):表明 Span 的结束,客户端成功接收到服务端的回复,cr 减去 cs 即客户端从服务端获取回复的所有时间

ZipKin 简介

Zipkin 是一个开源的分布式追踪系统,用于对服务间的调用链路进行监控追踪。在微服务架购下,用户的一个请求可能涉及很多个后台服务间的调用。Zipkin 可以追踪(trace)调用链路、收集在各个微服务上所花的时间等信息,并上报到 Zipkin 服务器

Zipkin 提供可插拔数据存储方式:In-Memory、MySQL、Cassandra 以及 Elasticsearch,为了方便在开发环境直接采用 In-Memory 方式进行存储,生产数据量大的情况则推荐使用 Elasticsearch

Zipkin 主要由四个核心组件组成:

  • Collector:接收或收集各应用传输的数据
  • Storage:存储接收或收集过来的数据,当前支持 Memory、MySQL、Cassandra、ElasticSearch 等,默认存储在内存中
  • API(Query):负责查询 Storage 中存储的数据,提供简单的 JSON API 获取数据,主要提供给 Web UI 使用
  • UI:官方默认提供的一个图形用户界面

Zipkin 以 Trace 结构表示对一次请求的追踪,把每个 Trace 拆分为若于个有依赖关系的 Span,可以把每个处理请求的服务理解为一个 Span。Zipkin 除了可以查看 Span 的依赖关系之外,还以瀑布图的形式显示每个 Span 的耗时情况,可以清晰地看到各个服务的性能状况。打开每个 Span,还有更详细的数据以键值对的形式呈现,而且这些数据可以在装备应用的时候自行添加

Zipkin 下载地址:https://repo1.maven.org/maven2/io/zipkin/zipkin-server/

这里选择 zipkin-server-2.24.3-exec.jar 版本,既然是一个 jar 包,那么直接使用 java 命令运行即可,访问:http://localhost:9411/zipkin/ 可查看控制台

如果使用 MySQL 进行数据存储,需要事先搭建好 MySQL 数据库,执行建表脚本,可在 GitHub 获取:https://github.com/openzipkin/zipkin/blob/master/zipkin-storage/mysql-v1/src/main/resources/mysql.sql

启动 ZipKin,连接 MySQL,具体启动命令如下:

java -jar .\zipkin-server-2.24.3-exec.jar --STORAGE_TYPE=mysql --MYSQL_HOST=127.0.0.1 --MYSQL_TCP_PORT=3306 --MYSQL_DB=test_db --MYSQL_USER=root --MYSQL_PASS=123

Spring Cloud Sleuth 整合 ZipKin

在 server-01 和 server-02 项目分别添加依赖

<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-sleuth</artifactId>
</dependency>
<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-sleuth-zipkin</artifactId>
</dependency>

在 server-01 和 server-02 项目分别添加配置

spring:
  zipkin:
    base-url: http://localhost:9411
    enabled: true
  sleuth:
    enabled: true

如果 spring-cloud-sleuth-zipkin 位于类路径中,则该应用程序会生成并收集与 Zipkin 兼容的 Trace,默认情况下,应用程序通过 HTTP 将 ace 信息发送到本地主机(端口 9411)上的 ZipKin 服务器,可以通过设置 spring.zipkin.base-url 来配置服务的地址

在 server-01 使用 Feign 调用 server-02 接口

// server-01
@Slf4j
@RestController
public class TestCon {

    @Autowired
    private Server02FeignClient server02FeignClient;

    @GetMapping("/test/getConfigByFeign")
    public void getConfigByFeign() {
        server02FeignClient.getConfig();
    }
}

// server-02
@Slf4j
@RestController
public class TestCon {

    @Value("${test.value}")
    private String testValue;

    @Value("${spring.application.name}")
    private String applicationName;

    @Value("${server.port}")
    private String port;

    @GetMapping("/test/getConfig")
    public void getConfig() {
        log.info("testValue: {} by {}-{}", testValue, applicationName, port);
    }
}

查看 ZipKin 控制台,选择 Dependencies 选项卡,点击 RUN QUERY 查看具体请求链路,选择 Find a trace 选项卡,单击 RUN QUERY,可查看具体的请求信息


Pinpoint

Pinpoint 是一款无侵入式的全链路分析工具,基于字节码增强技术实现了调用链监控方法执行详情查看和应用状态信息监控等功能。Pinpoint 基于 Google Dapper 实现,与 Zipkin 的功能类似,与 Zipkin 最大的不同是,Pinpoint 具有无侵入式的、代码维度的监控特性

Pinpoint 主要由三个组件和 HBase 组成,三个组件分别为 Agent、Collector 和 Web UI,它们的功能分別为数据收集、数据存储和数据展示,HBase 为数据的持久化数据库

  • Agent:收集应用程序的监控数据,Agent是无侵入式的,只需在应用程序的启动命令中加入部分参数即可
  • Collector:数据收集模块,接收 Agent 上报的监控数据,并将其存储到 HBase
  • Web UI:链路监控展示模块,用于查看系统的拓扑图、实时活跃线程图、调用服务状态和机器状态等,同时支持告警功能

Pinpoint 核心数据结构由 Span、Trace、TrceId 组成:

  • Span:RPC 跟踪的基本单元,当一个 RPC 调用到达时,表明 RPC 工作已经处理完成,并在返回值中包含了跟踪数据,每个 Span 都包含一个 SpanId(当收到 RPC 消息时处理请求的工作 id,在 RPC 请求到达节点后生成)
  • Trace:多个 Span 的集合,由关联 RPC 的一系列 Span 组成,同一个 Trace 中的 Span 共享相同的 TransactionId(分布式系统间实现事务唯一性的标识),Trace 通过 SpanId 和 ParentSpanId 将调用栈整理为树结构
  • TraceId: 由 TransactionId,SpanId,ParentSpanId 组成的 Key 的集合,TransactionId 表示消息的 id,SpanId 和 ParentSpanId 表示 RPC 的父子调用关系

Pinpoint 基于字节码增强技术实现无侵入式的调用链数据采集,主要基于 JVM 的 JavaAgent 机制来实现,应用在启动时通过设置 JavaAgent 来指定 PinpointAgent 的加载路径,相关代码如下:

-javaagent:$AGENT_PATH/pinpoint-bootstrap-$VERSION.jar

在启动后,PinpointAgent 采用宇节码增强技术在加载应用 Class 文件之前拦截并修改字节码,在 Class 的方法调用前后加上链路数据采集逻辑,从而实现链路采集功能

Pinpoint 的使用包括 pinpoint-collector 的安装、pinpoint-web 的安装、pinpoint-agent 的配置和应用。鉴于篇幅原因,具体的安装步骤请参照官网,这里强调一下服务的配置和应用,配置如下:

CATALINA_OPTS="$CATALINA_OPTS -javaagent:$AGENT_PATH/pinpoint-bootstrap-$VERSION.jar"
CATALINA_OPTS="$CATALINA_OPTS -Dpinpoint.agentId=$AGENT_ID"
CATALINA_OPTS="$CATALINA_OPTS -Dpinpoint.applicationName=$APPLICATION_NAME"

当应用程序需要通过 Pinpoint 实现全链路监控时,不需要修改应用程序的任何代码,只需在启动时加上以上三个参数即可,其中,-javaagent:$AGENT_PATH/pinpoint-bootstrap-$VERSION.jar 表示要通过 Pinpoint 动态字节码增强技术实现监控,agentId 表示唯一标识该应用的 id,applicationName 表示服务的名称

posted @ 2023-10-08 12:31  低吟不作语  阅读(554)  评论(0编辑  收藏  举报