10 2023 档案
摘要:前言 在 kubernetes 中配置 https://github.com/NVIDIA/k8s-device-plugin 时, 报错:Detected non-NVML platform: could not load NVML: libnvidia-ml.so.1: cannot open
阅读全文
摘要:前言 在管理 Kubernetes 集群的过程中,我们经常会遇到这样一种情况:在某台节点上发现某个进程资源占用量很高,却又不知道是哪个容器里的进程。有没有办法可以根据进程 PID 快速找到 Pod 名称呢? 解决 假设现在有一个 prometheus 进程的 PID 是 14338: 要获取容器的
阅读全文
摘要:前言 在 ssh -i 指定密钥文件 登录时,出现以下报错: Permissions 0644 for 'xxxx' are too open. It is required that your private key files are NOT accessible by others. This
阅读全文
Grafana导入 json 文件的 dashboard 错误 Templating Failed to upgrade legacy queries Datasource xxx not found
摘要:前言 编辑或者修改后的 dashboard 保存为 json 文件,在其他环境导入使用,报错 Failed to upgrade legacy queries Datasource xxxxxxx was not found,无法显示监控数据 问题原因为:从其他 grafana 导出的 dashbo
阅读全文
摘要:报错 当我在打包 docker镜像时,发生了报错 $ sudo docker build -t dcgm-exporter:3.2.5 . 1.772 The following signatures couldn't be verified because the public key is no
阅读全文