Centos 7.8 中安装Nvidia A100 GPU驱动
Centos7安装A100显卡驱动
Centos7.8:https://blog.csdn.net/yaxuan88521/article/details/123989543
Ubuntu: https://blog.csdn.net/linuxprobe18/article/details/123868432
需要的安装包:
(base) [root@localhost jws]# ll total 7479700 -rwxr-xr-x. 1 root root 3490450898 Jun 12 04:17 cuda_11.7.0_515.43.04_linux.run drwxr-xr-x. 4 25503 2174 47 Apr 29 18:42 cudnn-linux-x86_64-8.9.1.23_cuda11-archive -rw-r--r--. 1 root root 2507919360 Jun 12 05:19 cudnn-linux-x86_64-8.9.1.23_cuda11-archive.tar -rw-r--r--. 1 root root 184962046 Jun 19 03:31 datacenter-gpu-manager-2.1.7-1-x86_64.rpm -rw-r--r--. 1 root root 193960311 Jun 19 04:59 datacenter-gpu-manager-2.3.4-1-x86_64.rpm -rw-r--r--. 1 root root 17513936 Jun 12 04:17 kernel-devel-3.10.0-957.el7.x86_64.rpm -rw-r--r--. 1 root root 8354260 Jun 12 04:28 kernel-headers-3.10.0-957.el7.x86_64.rpm -rw-r--r--. 1 root root 892304538 Jun 12 04:54 nvidia-driver-local-repo-rhel7-515.105.01-1.0-1.x86_64.rpm -rwxr-xr-x. 1 root root 363738348 Jun 12 03:23 NVIDIA-Linux-x86_64-515.105.01.run (base) [root@localhost jws]#
开启MIG模式命令:
nvidia-smi -mig 1
GPU命令:
https://zhuanlan.zhihu.com/p/558046644
MIG的基本操作
MIG的shell操作主要包括:查看命令、创建命令和删除命令。MIG的操作都要用root权限,所以如果是非root用户,操作命令要加上sudo字符,下面操作示例中默认用户是root。 首先将这些操作例出来,然后对一些创建与删除操作进行讲解。
功能 | 命令 | 说明 |
---|---|---|
【开】指定某卡 开启MIG | nvidia-smi -i 0 -mig 1 | -i 指定的GPU编号 可以是0,1,3 |
【关】指定某卡 关闭MIG | nvidia-smi -i 0 -mig 0 | |
【开】全部卡的MIG使能 | nvidia-smi -mig 1 | 1 打开; 0 关闭; |
【查看】子GPU实例的profile | nvidia-smi mig -lgip | 获得子GPU可创建的情况 |
【查看】子GPU实例的placement | nvidia-smi mig -lgipp | 获得子GPU可以创建的位置 |
【查看】子GPU上CI的profile | nvidia-smi mig -lcip | 添加 -gi指定特定的子GPU,如指定子GPU 2查看上面的CI实例: nvidia-smi mig -lci -gi 2 |
【查看】已创建的子GPU的情况 | nvidia-smi mig -lgi | |
【创建】子GPU + 对应的CI | nvidia-smi mig -i 0 -cgi 9 -C | -i: 指定父GPU -cgi:列出需要创建的子GPU的类型 格式:9 或者 3g.20gb 或者 MIG 3g.20gb -C :连同一起创建CI |
【创建】子GPU | nvidia-smi mig -i 0 -cgi 9 | 创建一个profile为9的GI实例: 3个计算单元 + 20gb显存。 |
【创建】子GPU上面的CI | nvidia-smi mig -cci 0,1 -gi 1 | -cci:创建的CI实例的编号 -gi:指定子GPU |
【删除】子GPU | nvidia-smi mig -dgi -i 0 -gi 1 | -i:指定父GPU -gi:待删除的子GPU |
【删除】子GPU上面的CI 实例 | nvidia-smi mig -dci -i 0 -gi 1 -ci 0 | -i:指定父GPU -gi:待操作的子GPU -ci: 待删除的CI实例 |
【查看】 整个MIG实例情况 | nvidia-smi -L |