GPU-Burn压力测试

gpu-burn压力测试

1.CentOS

1.查看内核版本和CentOS系统 版本:

uname -a
cat /etc/centos-release

2.查看服务器上是否有NVIDIA GPU:

lspci | grep NVIDIA
/sbin/lshw -c display

3.如果系统安装时没有选择安装开发工具,则安装一下gcc、kernel-devel等以及相关依赖包

sudo yum install gcc kernel-devel-$(uname -r) kernel-headers-$(uname -r)

安装以下包及其依赖包(可选):

 sudo yum install libXmu-devel libXi-devel mesa-libGL-devel

以run文件形式安装Nvidia驱动和CUDA Toolkit

下载CUDA Toolkit

打开CUDA Toolkit下载页面,https://developer.nvidia.com/cuda-downloads,选择系统版本和硬件平台

用wget命令下载:

wget https://developer.download.nvidia.com/compute/cuda/12.3.1/local_installers/cuda_12.3.1_545.23.08_linux.run

禁用nouveau驱动

nouveau是一个第三方开源的Nvidia驱动,一般Linux安装的时候默认会安装这个驱动。 这个驱动会与Nvidia官方的驱动冲突,在安装Nvidia驱动和和CUDA之前应先禁用nouveau。

查看系统是否正在使用nouveau:

 lsmod | grep nouveau

img

则进行以下的步骤禁用nouveau:

新建一个配置文件:

sudo vim /etc/modprobe.d/blacklist-nouveau.conf

写入以下内容:

blacklist nouveau
options nouveau modeset=0

备份当前的内核镜像:

sudo mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

建立新的内核镜像:

sudo dracut /boot/initramfs-$(uname -r).img $(uname -r)

重启服务器:

sudo reboot

重启后输入上面的命令验证:

lsmod | grep nouveau

安装CUDA Toolkit

执行安装程序:

 sudo sh cuda_12.3.1_545.23.08_linux.run

接受许可协议:

img

安装成功的提示:

img

可以看到卸载的命令是nvidia-uninstall和/usr/local/cuda-12.3/bin/cuda-uninstall。

如果安装出错,查看安装日志/var/log/cuda-installer.log和/var/log/nvidia-installer.log,检查错误原因。

验证驱动

nvidia-smi

img

验证CUDA Toolkit

查看nvcc

cd /usr/local/cuda/bin/
./nvcc --version

img

安装CUDA Toolkit时默认安装了CUDA Demo Suite,包含了deviceQuery、bandwidthTest等工具,打开这个链接查看说明https://docs.nvidia.com/cuda/demo-suite/index.html#demos

下面使用deviceQuery查询设备

cd /usr/local/cuda-12.3/extras/demo_suite
./deviceQuery

img

带宽测试bandwidthTest:

./bandwidthTest --memory=pinned --mode=range --start=1024 --end=102400 --increment=1024 --dtoh

img

设置环境变量(可选)

vim ~/.bashrc

添加以下内容

export CUDA_HOME=/usr/local/cuda
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export CUDA_ROOT=/usr/local/cuda

使修改生效:

 source ~/.bashrc

这样就可以使用nvcc 命令了

img

使用gpu-burn进行压力测试

下载安装gpu-burn

下载地址:https://github.com/wilicc/gpu-burn,

img

unzip gpu-burn-master.zip
cd gpu-burn-master/
make

img

如果需要执行清理,重新编译,执行:

 make clean

执行压力测试

 ./gpu_burn

img

长时间压力测试:

./gpu_burn 43200

43200为时间,单位是秒,根据需要调整。

gpu_burn命令使用帮助:

./gpu_burn -h

img

卸载NVIDIA驱动、CUDA Toolkit

卸载驱动:

 sudo nvidia-uninstall

卸载CUDA:

sudo /usr/local/cuda/cuda-uninstaller

img

img

2.Ubuntu

查看显卡是否被虚拟机占用

lspci -nnk | grep -i vga -A3
cp /etc/modprobe.d/blacklist.conf /etc/modprobe.d/blacklist.conf_backup
lsmod | grep nouveau
vim /etc/modprobe.d/blacklist.conf
# nouveau
blacklist nouveau
options nouveau modeset=0

静默安装显卡驱动

Linux驱动下载)

系统版本(cat /etc/issue)
ubuntu 20.04
gpu数量及型号(lspci | grep NV | grep VGA)
02:00.0 VGA compatible controller: NVIDIA Corporation Device 2206 (rev a1)
83:00.0 VGA compatible controller: NVIDIA Corporation Device 2206 (rev a1)

安装驱动编译工具、依赖包

apt-get install gcc make libhugetlbfs-dev libc-dev libc6-dev build-essential g++ -y

静默安装显卡驱动

./NVIDIA-Linux-x86_64-515.57.run --no-opengl-files -s

image-20240415115713245

安装nvidia-cuda-toolkit

apt-get install nvidia-cuda-toolkit -y
安装gpu_burn及编译
mkdir gpu-burn
cd gpu-burn
wget http://wili.cc/blog/entries/gpu-burn/gpu_burn-0.9.tar.gz
tar xvf gpu_burn-0.9.tar.gz
make

image-20240415121557402

posted @ 2024-08-08 18:09  LYChuad  阅读(5370)  评论(0)    收藏  举报