k8s DCGM GPU采集指标项说明
dcgm-exporter 采集指标项
https://help.aliyun.com/document_detail/433222.html#section-oin-6mf-6j0
指标 | 解释 |
---|---|
dcgm_fan_speed_percent | GPU风扇转速占比(%) |
dcgm_sm_clock | GPU sm 时钟(MHz) |
dcgm_memory_clock | GPU 内存时钟(MHz) |
dcgm_gpu_temp | GPU 运行的温度(℃) |
dcgm_power_usage | GPU 的功率(w) |
dcgm_pcie_tx_throughput | GPU PCIeTX 传输的字节总数 (kb) |
dcgm_pcie_rx_throughput | GPU PCIeRX 接收的字节总数 (kb) |
dcgm_pcie_replay_counter | GPU PCIe重试的总数 |
dcgm_gpu_utilization | GPU 利用率(%) |
dcgm_mem_copy_utilization | GPU 内存利用率(%) |
dcgm_enc_utilization | GPU 编码器利用率(%) |
dcgm_dec_utilization | GPU 解码器利用率(%) |
dcgm_xid_errors | GPU 上一个xid错误的值 |
dcgm_power_violation | GPU 功率限制导致的节流持续时间(us) |
dcgm_thermal_violation | GPU 热约束节流持续时间(us) |
dcgm_sync_boost_violation | GPU 同步增强限制,限制持续时间(us) |
dcgm_fb_free | GPUfb(帧缓存)的剩余(MiB) |
dcgm_fb_used | GPUfb(帧缓存)的使用(MiB) |
分类:
kubernetes
标签:
k8s
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通