GPU A10 driver, CUDA 安装

环境

HOST: ubuntu804LTS
GUST: 通过PCIE 透卡， KVM 虚拟机: ubuntu1804LTS

在gust 里面安装GPU driver

driver 安装步骤

NVIDIA Telsa GPU 的 Linux 驱动在安装过程中需要编译 kernel module，系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包，例如 kernel-devel-$(uname -r) 等。

执行以下命令，并输入 root 用户密码，切换至 root 用户

su

执行以下命令，查看当前系统中是否已安装 dkms。

  dpkg -l | grep -i dkms

若有返回结果，则表明安装成功。若返回结果为空，则表明未安装 dkms，执行以下命令进行安装。
执行下面命令安装

  apt-get install dkms

前往 Official Drivers 页面，按需选择 GRID 驱动类型。

如有填写个人信息的页面可选择直接跳过，当出现以下页面时，右键单击 AGREE&DOWNLOAD 并选择菜单中的复制链接地址。如下图所示：

ssh 登录 GPU gust 机器, 使用 wget 命令，粘贴步骤5 中复制的链接地址，下载安装包。

wget driver_url

执行以下命令，修改安装包权限。请将命令中的 xxx 替换为您实际的驱动版本号。

chmod +x NVIDIA-Linux-x86_64-xxxx.run

由于 NVIDIA 动的安装需要依赖 gcc 和 linux-kernel-headers，请依次执行以下命令，检查当前系统中是否已安装 gcc 和 kernel-devel 包。

dpkg -l | grep -i gcc
dpkg -l | grep -i linux-headers

如返回不为空，表明已经安装成功过；若返回结果为空，则表明未安装，执行以下命令进行安装。

sudo apt-get install gcc linux-kernel-headers

执行命令安装驱动程序，根据提示进行后续操作。请将命令中的 xxx 替换为您实际的驱动版本号。

sudo sh NVIDIA-Linux-x86_64-xxxx.run --ui=none --disable-nouveau --no-install-libglvnd --dkms -s

安装完成后，执行以下命令进行验证。

nvidia-smi

如返回信息类似下图中的 GPU 信息，则说明驱动安装成功。

安装最后出现 nvidia-drm 模块问题

Unable to load the “nvidia-drm” kernel module
ERROR: Installation has failed. Please see the file '/var/log/nvidia-installer.log' for details. You may find suggestions on fixing installation problems in the README available on the Linux driver download page at www.nvidia.com.

解决办法：

CUDA 安装

nvidia-smi 查看 driver 对应 cuda 版本

root@123:~# nvidia-smi
Fri Sep 16 16:27:55 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.141.03   Driver Version: 470.141.03   CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A10          Off  | 00000000:98:00.0 Off |                    0 |
|  0%   29C    P8    19W / 150W |      4MiB / 22731MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|                                                                             |
+-----------------------------------------------------------------------------+

查看driver 对应的cuda 版本
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
https://developer.nvidia.com/cuda-toolkit-archive
https://developer.nvidia.com/cuda-11-4-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=18.04&target_type=runfile_local

下载cuda-toolkit

wget https://developer.download.nvidia.com/compute/cuda/11.4.0/local_installers/cuda_11.4.0_470.42.01_linux.run
sudo chmod +x cuda_11.4.0_470.42.01_linux.run

./cuda_11.4.0_470.42.01_linux.run

安装选项，因为已经提前安装了显卡驱动，所以把显卡驱动的安装选项取消掉：

选择Install回车，出现如下界面，表示安装完成（不必担心警告，那是因为我们没有选择安装显卡驱动而出现的，忽略即可）：

测试一下：

root@123:~# nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Wed_Jun__2_19:15:15_PDT_2021
Cuda compilation tools, release 11.4, V11.4.48
Build cuda_11.4.r11.4/compiler.30033411_0

配置CUDA环境

打开用户配置文件：
sudo vim ~/.bashrc
在文件中添加如下语句：

export PATH="/usr/local/cuda-11.4/bin:$PATH"
export LD_LIBRARY_PATH="/usr/lcoal/cuda-11.4/lib64:$LD_LIBRARY_PATH"

保存关闭后source文件使配置生效：
source ~/.bashrc

https://zhuanlan.zhihu.com/p/112138261
https://blog.csdn.net/weixin_38369492/article/details/107957296

posted @ 2022-09-06 20:53 michaelchengjl 阅读(4249) 评论(0) 收藏举报

刷新页面返回顶部

michaelchengjl

GPU A10 driver, CUDA 安装

GPU A10 driver, CUDA 安装

环境

driver 安装 步骤

CUDA 安装

公告

driver 安装步骤