GPU A10 driver, CUDA 安装
GPU A10 driver, CUDA 安装
环境
HOST: ubuntu804LTS
GUST: 通过PCIE 透卡, KVM 虚拟机: ubuntu1804LTS
在gust 里面安装GPU driver
driver 安装 步骤
NVIDIA Telsa GPU 的 Linux 驱动在安装过程中需要编译 kernel module,系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包,例如 kernel-devel-$(uname -r) 等。
- 执行以下命令,并输入 root 用户密码,切换至 root 用户
su
- 执行以下命令,查看当前系统中是否已安装 dkms。
dpkg -l | grep -i dkms
若有返回结果,则表明安装成功。若返回结果为空,则表明未安装 dkms,执行以下命令进行安装。
执行下面命令安装
apt-get install dkms
- 前往 Official Drivers 页面,按需选择 GRID 驱动类型。
如有填写个人信息的页面可选择直接跳过,当出现以下页面时,右键单击 AGREE&DOWNLOAD 并选择菜单中的复制链接地址。如下图所示:
- ssh 登录 GPU gust 机器, 使用 wget 命令,粘贴 步骤5 中复制的链接地址,下载安装包。
wget driver_url
- 执行以下命令,修改安装包权限。请将命令中的 xxx 替换为您实际的驱动版本号。
chmod +x NVIDIA-Linux-x86_64-xxxx.run
- 由于 NVIDIA 动的安装需要依赖 gcc 和 linux-kernel-headers,请依次执行以下命令,检查当前系统中是否已安装 gcc 和 kernel-devel 包。
dpkg -l | grep -i gcc dpkg -l | grep -i linux-headers
如返回不为空, 表明已经安装成功过; 若返回结果为空,则表明未安装,执行以下命令进行安装。
sudo apt-get install gcc linux-kernel-headers
- 执行命令安装驱动程序,根据提示进行后续操作。请将命令中的 xxx 替换为您实际的驱动版本号。
sudo sh NVIDIA-Linux-x86_64-xxxx.run --ui=none --disable-nouveau --no-install-libglvnd --dkms -s
- 安装完成后,执行以下命令进行验证。
nvidia-smi
如返回信息类似下图中的 GPU 信息,则说明驱动安装成功。
安装最后出现 nvidia-drm 模块问题
Unable to load the “nvidia-drm” kernel module ERROR: Installation has failed. Please see the file '/var/log/nvidia-installer.log' for details. You may find suggestions on fixing installation problems in the README available on the Linux driver download page at www.nvidia.com.
解决办法:
- 重新装
- https://onlycaptain.github.io/2018/08/18/Ubuntu下Nvidia驱动安装/
- https://www.machunjie.com/trouble/code_error/789.html
CUDA 安装
nvidia-smi 查看 driver 对应 cuda 版本
root@123:~# nvidia-smi Fri Sep 16 16:27:55 2020 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 470.141.03 Driver Version: 470.141.03 CUDA Version: 11.4 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 NVIDIA A10 Off | 00000000:98:00.0 Off | 0 | | 0% 29C P8 19W / 150W | 4MiB / 22731MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | | +-----------------------------------------------------------------------------+
查看driver 对应的cuda 版本
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
https://developer.nvidia.com/cuda-toolkit-archive
https://developer.nvidia.com/cuda-11-4-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=18.04&target_type=runfile_local
下载cuda-toolkit
wget https://developer.download.nvidia.com/compute/cuda/11.4.0/local_installers/cuda_11.4.0_470.42.01_linux.run sudo chmod +x cuda_11.4.0_470.42.01_linux.run ./cuda_11.4.0_470.42.01_linux.run
安装选项,因为已经提前安装了显卡驱动,所以把显卡驱动的安装选项取消掉:
选择Install回车,出现如下界面,表示安装完成(不必担心警告,那是因为我们没有选择安装显卡驱动而出现的,忽略即可):
测试一下:
root@123:~# nvcc --version nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2021 NVIDIA Corporation Built on Wed_Jun__2_19:15:15_PDT_2021 Cuda compilation tools, release 11.4, V11.4.48 Build cuda_11.4.r11.4/compiler.30033411_0
配置CUDA环境
打开用户配置文件: sudo vim ~/.bashrc 在文件中添加如下语句: export PATH="/usr/local/cuda-11.4/bin:$PATH" export LD_LIBRARY_PATH="/usr/lcoal/cuda-11.4/lib64:$LD_LIBRARY_PATH" 保存关闭后source文件使配置生效: source ~/.bashrc
https://zhuanlan.zhihu.com/p/112138261
https://blog.csdn.net/weixin_38369492/article/details/107957296
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?