海光 DCU信息查询

 

查看GPU(加速卡)

  1. 查看GPU型号
    rocminfo | grep -i zifang(zifang 表示: Z100 )
[root@worker-0 root] rocminfo | grep -i zifang
  Name:                    ZIFANG                             
  Name:                    ZIFANG 
  1. 查看GPU使用率
  • 设备及显存占用(每次显示瞬时数据,即数据截屏):rocm-smi
# 每次显示瞬时数据(数据截屏)
[root@worker-0 root] rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU  Temp   AvgPwr  SCLK     MCLK    Fan   Perf  PwrCap  VRAM%  DCU%
1    47.0c  25.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    8%   0%
2    46.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
3    48.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
4    47.0c  28.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
===============================================================================

[root@worker-0 root] rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU  Temp   AvgPwr  SCLK     MCLK    Fan   Perf  PwrCap  VRAM%  DCU%
1    47.0c  25.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    8%   100%
2    46.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
3    48.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
4    47.0c  28.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
===============================================================================
  • 动态显示GPU占用:watch rocm-smi
# 动态显示
[root@worker-0 root] watch rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU  Temp   AvgPwr  SCLK     MCLK    Fan   Perf  PwrCap  VRAM%  DCU%
1    47.0c  25.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    8%   100%
2    46.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
3    48.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
4    47.0c  28.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
===============================================================================

这段输出是使用rocm-smi命令在基于ROCm(Radeon Open Compute)环境的Linux系统上查看AMD GPU(数据计算单元DCU)的状态。下面是对输出信息的解释:

DCU:数据计算单元编号,这里从1到4,表示系统中有4个AMD GPU。

Temp:GPU的温度,单位是摄氏度(c)。这里的温度分别是47.0c、46.0c、48.0c和47.0c。

AvgPwr:GPU的平均功率,单位是瓦(W)。这里的功率分别是25.0W、24.0W、24.0W和28.0W。

SCLK:GPU的核心时钟频率,单位是兆赫兹(Mhz)。所有GPU的核心时钟频率都是1319Mhz。

MCLK:GPU的内存时钟频率,单位也是兆赫兹(Mhz)。所有GPU的内存时钟频率都是800Mhz。

Fan:风扇转速的百分比。这里所有GPU的风扇转速都是0.0%,意味着风扇可能处于停止状态或者数据未更新。

Perf:性能模式,这里是auto,表示GPU的性能模式设置为自动调整。

PwrCap:功率上限,单位是瓦(W)。所有GPU的功率上限都是300.0W。

VRAM%:GPU显存使用率百分比。只有第一个GPU的显存使用率为8%,其他都是0%。

DCU%:GPU使用率百分比。只有第一个GPU的使用率为100%,其他都是0%。

从这些信息可以看出,系统中虽然有4个AMD GPU,但只有第一个GPU正在被使用(100% DCU%和8% VRAM%),而其他三个GPU目前处于空闲状态(0% DCU%和0% VRAM%)。所有GPU的温度和功率都在正常范围内,且性能模式设置为自动调整。风扇转速为0%可能意味着在当前的负载下,GPU不需要额外的冷却。

  参考相关文章:https://www.jianshu.com/p/1d02cf5d1621

posted @ 2024-11-05 17:39  银河星光  阅读(2529)  评论(0)    收藏  举报