prometheus监控pod的Reason的值

在Prometheus中，监控Pod的Reason值通常是通过Kubernetes集群中的Metrics Server来实现的。Metrics Server是Kubernetes集群监控的组件，它会收集集群中所有节点和Pod的资源使用情况，并通过HTTP服务的方式暴露出来。

要监控Pod的Reason值，你需要确保Metrics Server已经在你的Kubernetes集群中安装并运行。一旦Metrics Server运行，它会暴露一个HTTP服务，Prometheus可以通过配置一个ServiceMonitor或直接配置Prometheus配置文件来获取这些指标。

以下是一个简单的Prometheus配置示例，它配置了一个ServiceMonitor来监控Metrics Server：

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: metrics-server
  labels:
    k8s-app: metrics-server
spec:
  selector:
    matchLabels:
      k8s-app: metrics-server
  endpoints:
  - port: https-metrics
    scheme: https
    tlsConfig:
      insecureSkipVerify: true

在Prometheus的配置文件中，你需要添加一个Job来抓取Metrics Server的指标：

scrape_configs:
  - job_name: 'kubernetes-metrics'
    kubernetes_sd_configs:
      - role: endpoints
    scheme: https
    tls_config:
      insecure_skip_verify: true
    relabel_configs:
      - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name]
        action: keep
        regex: default;metrics-server;https-metrics

在PromQL查询中，你可以使用以下表达式来查询Pod的Reason值（通常不是直接关联的，但可以通过Pod的状态来推断）：kube_pod_info

这个表达式会返回当前所有Pod的状态信息，包括是否正在运行（phase 等于 Running），以及是否已经失败（status 等于 Failed）。如果你需要更详细的容器启动错误信息，你可以查询kube_pod_container_status_wait_reason指标，它会包含CrashLoopBackOff等状态的原因。

请注意，这些指标可能不会直接包含Pod的Reason值，因为Pod的Reason值通常是事件的一部分，而这些指标是由Metrics Server从Kubernetes集群的资源使用数据动态生成的。如果你需要事件的详细信息，你可能需要查询Kubernetes的事件系统。