随笔分类 -  Prometheus

摘要:一、项目目标 通过 Prometheus + Grafana 实现对阿里云账号下所有一级域名的自动监控,涵盖以下内容: 获取一级域名列表及其解析记录 监控域名注册到期时间 监控域名对应 SSL 证书到期时间 指标统一采集至 Prometheus Grafana 实现可视化和告警 二、版本信息 阅读全文
posted @ 2025-06-28 00:23 Hello_worlds 阅读(152) 评论(0) 推荐(0)
摘要:exporter 指标 说明 示例 示例说明 gpu-exporter nvidia_gpu_num_devices 节点上GPU总数量 gpu-exporter nvidia_gpu_allocated_num_devices 节点已经分配的GPU数量 节点 nvidia_gpu_allocate 阅读全文
posted @ 2025-05-27 17:47 Hello_worlds 阅读(149) 评论(0) 推荐(0)
摘要:需求拆解 1.我们在kubernetes集群中部署了n多个go服务 2.我们已经有了一套在kubernetes集群之外部署的Prometheus 3.现在我们需要监控所有服务去qps 4.监控起来之后需要在grafana上通过不通的研发部门{北京 上海两个研发部门}进行展示 5.现在想通过要将qps 阅读全文
posted @ 2024-12-10 11:36 Hello_worlds 阅读(260) 评论(0) 推荐(0)
摘要:对网络io的监控对磁盘的监控非常相似,主要包括以下指标 1、接受的总字节数 container_network_receive_bytes_total 2、发送的总字节数 container_network_transmit_bytes_total 这两个参数分别对应网络的下行(网络读)和上行(网络 阅读全文
posted @ 2021-11-29 21:46 Hello_worlds 阅读(931) 评论(0) 推荐(0)
摘要:容器中的磁盘I/O监控指标主要包括 1、磁盘写总量 container_fs_writes_bytes_total 2、磁盘读总量 container_fs_reads_bytes_total 针对磁盘IO需要注意以下两点 1、读写是针对设备的,没有设备都有不同的读写速率 2、写速率监控智能获取直接 阅读全文
posted @ 2021-11-29 21:33 Hello_worlds 阅读(741) 评论(0) 推荐(0)
摘要:在容器内进行内存监控的常用指标包括 1、 内存中的cache用量 container_memory_cache 2、 常驻的内存用量 container_memory_rss 3、 交换分区用量 container_memory_swap 4、 内存的总占用量 container_memory_us 阅读全文
posted @ 2021-11-29 20:49 Hello_worlds 阅读(1868) 评论(0) 推荐(0)
摘要:k8s通过request(下限)和limit(上限)限制容器的CPU和内存的使用范围 在容器运行的过程中需要实时监控容器对cpu的使用情况 1、 容器用户态占用CPU的时间总和 container_cpu_user_seconds_total 2、 容器内核态占用CPU的时间总和 container 阅读全文
posted @ 2021-11-29 20:12 Hello_worlds 阅读(3107) 评论(0) 推荐(0)