Prometheus多集群监控的3种方案，你选哪种？

合集 - 开发与运维(100)

1.面试官：你能简单聊聊MyBatis执行流程2024-02-02 2.一文详解应用安全防护ESAPI2024-02-04 3.一个线程，从“生”到“死”经历的过程2024-02-05 4.KubeEdge v1.16.0 版本发布！10项新增特性2024-02-05 5.解密JavaChassis3：易扩展的多种注册中心支持2024-02-06 6.解析Sermant热插拔能力：服务运行时动态挂载JavaAgent和插件2024-02-08 7.想设计一个高并发的消息中间件前，先熟悉一下这些知识点2024-02-17 8.华为云GES助力九洲平台：探索确定性运维的新实践2024-02-17 9.0-overlay和underlay，这两种容器网络你分得清吗2024-02-18 10.教你用Rust实现Smpp协议2024-02-18 11.基于OpenTelemetry实现Java微服务调用链跟踪2024-02-19 12.揭开华为云ADN提高网络质量的秘密2024-02-19 13.详解网络知识：iptables规则2024-02-19 14.实例详解在Go中构建流数据pipeline2024-02-21 15.面试官让我讲讲MySQL三大核心日志实现原理2024-02-21 16.华为云帕鲁服务器-云耀云容器版，到底强在哪？2024-02-22 17.掌握云容器网络：何为ipvs2024-02-22 18.一文带你了解容器探针2024-02-23 19.教你如何判断Java代码中异步操作是否完成2024-02-26 20.深入解析Python并发编程的多线程和异步编程2024-02-27 21.教你如何用Keepalived和HAproxy配置高可用 Kubernetes 集群2024-02-28 22.容器化环境中，JVM最佳参数配置实践2024-02-29 23.关于Python中math 和 decimal 模块的解析与实践2024-02-29 24.运维一款月变更70+次的服务，是一种什么体验？2024-03-01 25.详解Python中sys模块的功能与应用2024-03-04 26.教你用Ubuntu快速搭建饥荒服务器2024-03-04 27.分享一个能让你的研发效率提升超过20%的工具2024-03-06 28.下一代积木式智能组装编排，集成开发效率10倍提升2024-03-06 29.如何基于容器网络流量指标进行弹性伸缩2024-03-06 30.Sermant运行流程学习笔记，速来抄作业2024-03-06 31.用几张图实战讲解MySQL主从复制2024-03-07 32.速存，详细罗列香橙派AIpro外设接口样例大全（附源码）2024-03-07 33.CCE集群VPC网络模式下几种访问场景2024-03-11 34.聊聊CWE 4.14 与 ISA/IEC 62443中，如何保障工业软件的安全性2024-03-12 35.20个Python random模块的代码示例2024-03-13 36.Java获取堆栈信息的3种方法2024-03-13

37.Prometheus多集群监控的3种方案，你选哪种？2024-03-14

38.手把手的使用Toolkit插件在诗情画意中完成AI诗朗诵2024-03-14 39.从基础到代码实战，带你进阶正则表达式的全方位应用2024-03-14 40.掌握Python库的Bokeh，就能让你的交互炫目可视化2024-03-15 41.从0带你设计与实现基于STM32的智慧农业管理系统2024-03-15 42.Python实践：基于Matplotlib实现某产品全年销量数据可视化2024-03-18 43.何为代码检查服务的门禁级检查2024-03-19 44.深入分析Java中的PriorityQueue底层实现与源码2024-03-19 45.如何在Docker容器启动时自动运行脚本2024-03-20 46.从静态到动态化，Python数据可视化中的Matplotlib和Seaborn2024-03-25 47.无人不识又无人不迷糊的this2024-03-26 48.保姆级教程：教你UniMRCP对接华为云ASR（Linux版）2024-03-26 49.华为云亮相KubeCon EU 2024，以持续开源创新开启智能时代2024-03-26 50.如何用Flask中的Blueprints构建大型Web应用2024-03-27 51.手把手带你用香橙派AIpro开发AI推理应用2024-03-27 52.保护主机安全，我来buff加成2024-03-28 53.探索华为云CCE敏捷版金融级高可用方案实践案例2024-03-28 54.Python数据库编程全指南SQLite和MySQL实践2024-03-28 55.标准库unsafe：带你突破golang中的类型限制2024-03-29 56.【重磅干货】大模型时代，开发者云上成长指南2024-03-29 57.探索Django REST框架构建强大的API2024-03-29 58.实例演示如何使用CCE XGPU虚拟化2024-04-01 59.浅谈JVM整体架构与调优参数2024-04-02 60.Redis开源协议调整，我们怎么办？2024-04-02 61.一文教你实战构建消息通知系统Django2024-04-02 62.kube-apiserver限流机制原理2024-04-07 63.详解Java Chassis 3与Spring Cloud的互操作2024-04-10 64.大量数据如何做分页处理2024-04-10 65.基于istio实现单集群地域故障转移2024-04-10 66.基于istio实现多集群流量治理2024-04-11 67.实例讲解昇腾 CANN YOLOV8 和 YOLOV9 适配2024-04-11 68.20个Python 正则表达式应用与技巧2024-04-12 69.详解K8s 镜像缓存管理kube-fledged2024-04-15 70.如何使用Plotly和Dash进行数据可视化2024-04-15 71.Python中两种网络编程方式：Socket和HTTP协议2024-04-16 72.教你解决CCE集群中容器出网2024-04-16 73.Spring开发：动态代理的艺术与实践2024-04-16 74.Python中2种常用数据可视化库：Bokeh和Altair2024-04-17 75.K8s集群nginx-ingress监控告警最佳实践2024-04-18 76.如何基于Django中的WebSockets和异步视图来实现实时通信功能2024-04-22 77.实践展示openEuler部署Kubernetes 1.29.4版本集群2024-04-22 78.根据Nginx Ingress指标对指定后端进行HPA2024-04-22 79.教你如何进行Prometheus 分片自动缩放2024-04-23 80.世界读书日 | 开发者必读书单重磅来袭，华为云DTSE专家天团力荐2024-04-23 81.认识一下JavaScrip中的元编程2024-04-23 82.一次故障演练，十分钟自动搞定?2024-04-25 83.实践探讨Python如何进行异常处理与日志记录2024-04-25 84.6个实例带你解读TinyVue 组件库跨框架技术2024-04-26 85.11个Python循环技巧2024-04-28 86.华为云FunctionGraph构建高可用系统的实践2024-04-28 87.从原始边列表到邻接矩阵Python实现图数据处理的完整指南2024-04-30 88.教你用Perl实现Smgp协议2024-05-06 89.Python文本统计与分析从基础到进阶2024-05-06 90.Sermant在异地多活场景下的实践2024-05-08 91.华为云开发者桌面全新发布CodeArts IDE for Python，极致优雅云原生开发体验2024-05-08 92.关于Java Chassis 3的契约优先（API First）开发2024-05-09 93.带你熟悉CCE集群增强型CPU管理策略enhanced-static2024-05-11 94.从XML配置角度理解Spring AOP2024-05-13 95.Java Chassis 3：接口维度负载均衡2024-05-13 96.Python函数与模块的精髓与高级特性2024-05-14 97.地理数据可视化的神奇组合：Python和Geopandas2024-05-15 98.openGemini v1.2.0版本正式发布，IoT 场景性能大幅提升！2024-05-15 99.聊聊MySQL是如何处理排序的2024-05-16 100.教你如何搞定springboot集成kafka2024-05-16

本文分享自华为云社区《Prometheus多集群监控方案》，作者：可以交个朋友。

一、背景

不少用户在k8s集群外裸机环境部署了prometheus监控组件想要查询k8s集群的监控指标，又或者是想采集多个k8s集群中的节点指标，容器指标，master组件指标等。

二、Prometheus多集群监控能力介绍

当前通过Prometheus采集多套k8s集群中的容器指标通常有三种方式。

通过APIServer代理的方式获取k8s集群指标，直接在prometheus.yml配置相关其他kubernetes集群信息，实现一个prometheus同时采集多个kubernetes集群信息
通过prometheus 联邦模式，实现一个prometheus拉取其他prometheus 数据
通过Prometheus Agent模式remote write远端存储，实现多个prometheus向同一个prometheus 输出数据（推荐）

三种方式对比分析

APIServer方式解决了数据冗余的方式，但是引入了配置的复杂性。同时随着k8s集群规模扩大，走APIServer代理请求获取集群指标数据对AIserver负载过大。
Prometheus联邦机制相对来说配置简单，最早的多集群监控方案。但是缺点也很明显: 占用资源较多,出现数据冗余; global Prometheus 汇总叶子Prometheus数据，处理数据压力大。
Prometheus Agent remote write方案配置简单，可以解决多集群监控数据冗余问题。同时可在remotewrite中配置过滤规则，减轻远端Prometheus数据处理压力

综上所述关于多集群监控方式，比较推荐Prometheus Agent remote write方案

三、配置实现

3.1 一个prometheus同时采集多个kubernetes集群操作

promethues通过配置bearer token，利用apiserver 代理的的形式，获取k8s集群的node指标，容器指标。

在目标集群创建Prometheus访问Kubernetes资源对象的RBAC资源

kubectl apply -f prometheus_rbac.yaml，目的为了Prometheus使用该serviceAccount能够自动发现集群相关资源，并拥有执行get list 等权限

apiVersion: v1
kind: ServiceAccount
metadata:
  name: prometheus-test
  namespace: kube-system

---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: prometheus-test
rules:
- apiGroups:
  - ""
  resources:
  - nodes
  - services
  - endpoints
  - pods
  - nodes/proxy
  verbs:
  - get
  - list
  - watch
- apiGroups:
  - "extensions"
  resources:
    - ingresses
  verbs:
  - get
  - list
  - watch
- apiGroups:
  - ""
  resources:
  - configmaps
  - nodes/metrics
  verbs:
  - get
- nonResourceURLs:
  - /metrics
  verbs:
  - get
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: prometheus-test
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: prometheus-test
subjects:
- kind: ServiceAccount
  name: prometheus-test
  namespace: kube-system

从目标集群获取token凭证

1.21以前版本的集群中，Pod中获取Token的形式是通过挂载ServiceAccount的Secret来获取Token，这种方式获得的Token是永久的。该方式在1.21及以上的版本中不再推荐使用，并且根据社区版本迭代策略，在1.25及以上版本的集群中，ServiceAccount将不会自动创建对应的Secret。可参考kubernetes官方提供的如何创建长期token: https://kubernetes.io/zh-cn/docs/tasks/configure-pod-container/configure-service-account/#manually-create-an-api-token-for-a-serviceaccount

将对应token保存为文件，为了演示便利，本Prometheus使用虚拟形态部署

在prometheus配置中写入其他集群信息，并启动

- job_name: k8s_cAdvisor
    scheme: https
    bearer_token_file: k8s_token
    tls_config:
      insecure_skip_verify: true
    kubernetes_sd_configs:  #kubernetes 自动发现配置
    - role: node    #node类型的自动发现
      bearer_token_file: k8s_token   #步骤1中创建的token文件
      api_server: https://192.168.0.153:5443  #k8s集群 apiserver地址
      tls_config:
        insecure_skip_verify: true   #跳过对服务端的认证
    relabel_configs:  #用于在抓取metrics之前修改target的已有标签
    - target_label: __address__
      replacement: 192.168.0.153:5443
      action: replace
      ##将metrics_path地址转换为/api/v1/nodes/${1}/proxy/metrics/cadvisor
      #相当于通过APIServer代理到kubelet上获取数据
    - source_labels: [__meta_kubernetes_node_name]   #指定我们需要处理的源标签
      regex: (.+)    #匹配源标签的值,(.+)表示源标签什么值都可以匹配上
      target_label: __metrics_path__     #指定了需要replace后的标签
      replacement: /api/v1/nodes/${1}/proxy/metrics/cadvisor  # 表示替换后的标签即__metrics_path__  对应的值。其中${1}表示正则匹配的值，即nodename
    - target_label: cluster  为该集群下的node节点打上cluster标签便于分组管理
      replacement: k8s   #为cluster标签赋值，值可以是集群名称或者其他唯一标识符

###该job用于监控另一个集群
  - job_name: k8s02_cAdvisor
    scheme: https
    bearer_token_file: k8s02_token
    tls_config:
      insecure_skip_verify: true
    kubernetes_sd_configs: 
    - role: node    
      bearer_token_file: k8s02_token  #步骤1中创建的token文件
      api_server: https://192.168.0.147:5443
      tls_config:
        insecure_skip_verify: true
    relabel_configs:
    - target_label: __address__
      replacement: 192.168.0.147:5443
      action: replace
    - source_labels: [__meta_kubernetes_node_name]
      regex: (.+)
      target_label: __metrics_path__
      replacement: /api/v1/nodes/${1}/proxy/metrics/cadvisor
    - target_label: cluster
      replacement: k8s02

启动prometheus服务: ./prometheus --config.file=prometheus.yml

3.2 prometheus联邦操作

Prometheus支持拉取其他Prometheus的数据到本地，称为联邦机制。这样我们可以在每个集群内部署一个Prometheus，然后部署一个global Prometheus用于拉取每个集群内部的Prometheus数据进行汇总。

增加联邦配置信息，并重启

  - job_name: 'federate-k8s01'
    scrape_interval: 15s

    honor_labels: true
    metrics_path: '/federate'          #固定配置

    params:
      'match[]':
       - '{job="istio-mesh"}'           #目标prometheus的监控job列表 ，根据实际情况填写
       - '{job="kubernetes-cadvisor"}' 

    static_configs:
      - targets:
        - '100.85.123.205:32298'        #目标prometheus的访问地址