prometheus 告警 gpu 卡的ecc错误
2020-07-31 17:24 ZealouSnesS 阅读(1029) 评论(0) 编辑 收藏 举报prometheus有两个指标可以告警gpu卡的错误
# HELP dcgm_ecc_dbe_volatile_total Total number of double-bit volatile ECC errors. 双位易失性ECC错误的总数
# TYPE dcgm_ecc_dbe_volatile_total counter
dcgm_ecc_dbe_volatile_total{gpu="0",uuid="GPU-4d52e430-b8c7-a0b9-7fda-4aa825af5c97"} 0
# HELP dcgm_ecc_sbe_volatile_total Total number of single-bit volatile ECC errors. 单位易失性ECC错误的总数
# TYPE dcgm_ecc_sbe_volatile_total counter
dcgm_ecc_sbe_volatile_total{gpu="0",uuid="GPU-4d52e430-b8c7-a0b9-7fda-4aa825af5c97"} 0
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步