足迹

能看不尽景,始是不凡人

 

单机互联拓扑获取 - 软件方式

姚伟峰

NV GPU

概况

$ nvidia-smi

如下是在某种机型上的输出示例:

Alt text
可知,本机型共有8张V100S-PCIe卡,每卡TDP为250W,DRAM大小为32GB。

物理连接拓扑

$ nvidia-smi topo -m

输出如下:

Alt text

  1. 由CPU Affinity栏:
    8张GPU卡都是接到CPU socket 0上的,这是一个single root system;

  2. 由连接矩阵:

    • 由PIX信息可得,共有2个PCIe switch,其中GPU0-GPU3连在同一个PCIe switch上,GPU4-GPU7连在同一个PCIe switch上;

    • 由NODE信息可得,这两个PCIe switch连在同一个CPU的两个Root Complex下;

      交叉验证
      lspci -tv,从如下BDF(Bus, Device, Function)号可以看出,两个PCIe switch是attach给两个bus id的(分别是3a和17)。
      Alt text
      Alt text
      由bus的cat /sys/class/pci_bus/0000:17/cpulistaffinity命令也可cross check。

进一步地,GPU PCIe spec可使用nvidia-smi -q获得:

Alt text
可知该机型V100卡使用PCIe 3.0 x16接口。

综合可得,物理连接拓扑为:

Alt text

 

Reference

  1. 4U GPU System - PCIe Root Architectures

  2. NCCL: Accelerated Multi-GPU Collective Communications

  3. 原来PCIe这么简单,一定要看!

  4. Interpreting PCIe Device to CPU Locality Information

  5. nvidia-smi topo SOC

  6. Intro to PCIe

  7. Fast Multi-GPU communication over PCI Express

posted on 2022-02-17 15:47  姚伟峰  阅读(603)  评论(0编辑  收藏  举报

导航