单机互联拓扑获取 - 软件方式
姚伟峰
NV GPU
概况
$ nvidia-smi
如下是在某种机型上的输出示例:
可知,本机型共有8张V100S-PCIe卡,每卡TDP为250W,DRAM大小为32GB。
物理连接拓扑
$ nvidia-smi topo -m
输出如下:
-
由CPU Affinity栏:
8张GPU卡都是接到CPU socket 0上的,这是一个single root system; -
由连接矩阵:
-
由PIX信息可得,共有2个PCIe switch,其中GPU0-GPU3连在同一个PCIe switch上,GPU4-GPU7连在同一个PCIe switch上;
-
由NODE信息可得,这两个PCIe switch连在同一个CPU的两个Root Complex下;
交叉验证
由lspci -tv
,从如下BDF(Bus, Device, Function)号可以看出,两个PCIe switch是attach给两个bus id的(分别是3a和17)。
由bus的cat /sys/class/pci_bus/0000:17/cpulistaffinity
命令也可cross check。
-
进一步地,GPU PCIe spec可使用nvidia-smi -q
获得:
可知该机型V100卡使用PCIe 3.0 x16接口。
综合可得,物理连接拓扑为: