服务可观察性

1 什么是可观察性

度量你的基础设施、平台和应用程序，以了解它是如何运行的。

可观察性可以帮助我们理解和度量系统运行状态，判断是否有可优化的空间，以及定位如下问题。

每个服务的状态如何，是否在按预期处理请求？
请求为什么会失败？
客户请求都经过了哪些服务，调用链上是否有性能瓶颈？

至于如何使一个系统具有可观察性，关键在于如何提供可以体现系统运行状态的数据，以及如何收集、展示这些数据并在系统异常的时候正确报警。

指标：一个时间段内累计的度量或计数，它具有原子性，并且是可累加的。比如某次请求使用了多少内存，某个服务在过去的一段时间内处理了多少请求等。指标数据占用内存最少，可以被高效传输和存储。

日志：系统事件的记录，这些事件是不连续且不可变的。比如记录某个服务出错时的错误信息，记录系统处理某次请求的信息等。日志占用的内存最多，因为它可以携带丰富的信息来帮助我们调试问题。

追踪：单次请求范围内的信息，某次请求生命周期内所有的数据、元数据信息都被绑定到单个事务上。比如一次请求经过了系统中哪些服务或模块，在这些服务或模块上的处理状况（错误、时延等）如何。追踪数据占用的内存介于指标和日志之间，它的主要作用是串联系统各个服务或模块的信息，帮助我们迅速定位问题。

侧重指标：Prometheus、InfluxDB、Cortex、Zabbix、Nagios、OpenCensus等。
侧重日志：ELK、Fluentd、Splunk、Loggly等。
侧重追踪：Jaeger、Zipkin、SkyWalking、OpenTracing、OpenCensus等。

2 云原生下的日志解决方案

单体应用时期

在单体应用和物理机时期，我们通过在物理机上部署Filebeat将应用产生的日志按行进行收集，加入分类信息及封装。

服务容器化早期方案：Sidecar

Filebeat将作为Sidecar在Pod中采集对应路径下的日志文件并将其发送到Kafka集群。这种方案下的Filebeat配置与物理机时期非常相近，作为过渡方案改动相对较小。但是Sidecar运行时的资源消耗会对整个Pod造成影响，进而影响服务的性能。

服务容器化稳定方案：DaemonSet

将控制台中的日志（调试日志、请求日志、第三方日志）重定向到节点的存储位置，之后令节点中的Filebeat对日志所在的路径进行监控采集。这种方案能够有效地将Filebeat的运行与应用的容器和Pod分割开来，规避了在Pod中使用Sidecar对应用造成的资源损耗。以DaemonSet模式启动的Filebeat会对采集到的日志进行初步处理，在增添Kubernetes宿主环境信息且封装后，将信息传递到对应的Kafka集群中，作为Kafka集群消费者的Logstash会监听注册的topic中的消息并进行消费。当Logstash接收到新的消息时，会根据日志消息中的type（类型）来区分是调试日志、请求日志还是第三方日志，并根据日志类型的不同来进行不同的解析处理。最后，Logstash会将处理好的日志信息与其对应的Elasticsearch索引发送给Elasticsearch集群进行存储。

3 分布式追踪

核心概念

追踪（Trace）：用来描述分布式系统中的一个完整的调用链，每个追踪都会有一个独有的追踪ID。

跨度（Span）：分布式系统中一个小的调用单元，可以是一个微服务，也可以是一次方法调用，甚至是一个简单的代码块调用。
跨度中可以包含起始时间戳、日志等信息。每个跨度会有一个独有的跨度ID。

跨度上下文（Span Context）：含额外追踪信息的数据结构，跨度上下文中可以包含追踪ID、跨度ID，以及其他任何需要向下游服务传递的追踪信息。

分布式追踪系统是如何实现跨服务调用时的问题定位的呢？对于一次客户调用，分布式追踪系统会在请求入口处生成一个追踪ID，用这个追踪ID将进入每个服务的调用日志串联起来，形成一个时序图。如图7-19所示，假设服务A的两端表示一次客户调用的开始和结束，中间会经过类似B、C、D、E等后端服务。此时如果服务E出现问题，该问题会被快速定位，无须让服务A、B、C、D都参与进来查找问题。