nvidia-smi命令有一张卡功率显示未N/A

在 NVIDIA-SMI 输出中,第四张 GPU 的功率显示为 “N/A”,这通常与以下几种情况相关:

Fri Sep 13 09:47:23 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 3080        Off |   00000000:02:00.0 Off |                  N/A |
| 33%   45C    P0             93W /  320W |       0MiB /  10240MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA GeForce RTX 3080        Off |   00000000:03:00.0 Off |                  N/A |
| 31%   44C    P0             90W /  320W |       0MiB /  10240MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA GeForce RTX 3080        Off |   00000000:81:00.0 Off |                  N/A |
| 30%   39C    P0             86W /  320W |       0MiB /  10240MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA GeForce RTX 3080        Off |   00000000:82:00.0 Off |                  N/A |
| 37%   48C    P0             89W /  320W |       0MiB /  10240MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA GeForce RTX 3080        Off |   00000000:83:00.0 Off |                  N/A |
| 30%   41C    P0             N/A /  320W |       0MiB /  10240MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+
第四张开功率显示为N/A

可能的原因

  1. GPU 状态或设置问题

    • GPU 可能处于空闲状态,未启用高功耗模式。
    • GPU 电源管理策略限制了功率的读取,可能没有开启完整的监控。
  2. 驱动问题

    • 驱动程序不兼容或配置不正确,可能导致某些 GPU 的功率无法正确显示。
  3. 硬件问题

    • 该 GPU 可能存在硬件问题,比如温度传感器或电源相关的传感器失效,导致功率读取失败。
  4. BIOS/固件问题

    • GPU 或主板的 BIOS 设置可能限制了对 GPU 功率的读取。
  5. MIG(多实例 GPU)配置

    • 如果 GPU 配置了 MIG 模式(多实例 GPU),有时功率信息也会被屏蔽。

解决方法

  1. 重启 NVIDIA 驱动程序
    你可以尝试通过命令重启 NVIDIA 驱动,确保其正常工作:

    sudo systemctl restart nvidia-persistenced
    
  2. 更新或重装 NVIDIA 驱动程序

    • 检查是否有最新版本的驱动程序可以更新,或者重新安装当前的驱动程序。
    • 确保驱动程序与 CUDA 版本兼容。
  3. 检查电源管理设置

    • 检查系统或 GPU 的电源管理设置,确保不会限制功率监控。
    • 可以尝试将 GPU 设置为“持续模式”:
      sudo nvidia-smi -pm 1
      
  4. 硬件检查

    • 检查这张 GPU 是否插牢、连接的电源线是否正常工作。
  5. 查看 BIOS 设置

    • 进入主板 BIOS 检查 GPU 相关的设置,确保一切配置正常。

后续处理

如果以上方法都无效,建议检查是否有与该 GPU 相关的系统日志,或者联系硬件供应商获取进一步的支持。

posted @ 2024-09-13 09:56  jasmine456  阅读(11)  评论(0编辑  收藏  举报