pytorch环境CUDA搭建
安装nvidia驱动
查看系统版本
cat /etc/os-release
查看显卡型号
sudo lshw -numeric -C display
安装编译工具
sudo apt-get install g++ make build-essential
卸载旧驱动
sudo apt-get remove --purge nvidia*
1、nvidia官网下载驱动
https://www.nvidia.com/Download/index.aspx?lang=en-us
选择显卡对应的版本驱动
示例:sudo wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/510.68.02/NVIDIA-Linux-x86_64-510.68.02.run
/etc/modprobe.d/blacklist.conf 中查看nouveau 驱动是否阻止自动加载,nouveau为开源nvidia驱动和nvidia官方驱动有冲突,要安装官门驱动需要禁用nouveau驱动加载
禁止nouveau加载
blacklist nouveau
保存blacklist.conf文件
sudo update-initramfs -u 更新
重启计算机
lsmod | grep nouveau 查看nouveau驱动是否加载
根据你所启用的桌面环境安装相应的桌面环境服务
systemctl stop gdm3 (根据自己环境选)
2、安装
sudo chmod +x NVIDIA-Linux-x86_64-510.68.02.run
sh NVIDIA-Linux-x86_64-510.68.02.run
挂载nvidia驱动
sudo modprobe nvidia
检查驱动是否安装成功
nvidia-smi
有正常显示界面即可 注意右上角cuda版本
3、安装cuda
根据nvidia-smi显示的CUDA版本号去官网下载
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/
下载https://developer.nvidia.com/cuda-toolkit-archive
选择runfile[local]方式安装.
示例:sudo sh cuda_11.6.2_510.47.03_linux.run
根据界面提示选择安装
安装完成配置环境变量
vim .bashrc
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.6/lib64
export PATH=/usr/local/cuda-11.6/bin:$PATH
地址根据你的实际安装路径填写,保存
source ~/.bashrc
查看cuda安装是否正常
nvcc -V
有正常显示版本号即可
4、安装anacoda
下载linux的sh版本
sh xxx.sh
安装完成编辑环境变量
vim ~/.bashrc
export PATH="/自己对应的路径名/anaconda3/bin:$PATH"
source ~/.bashrc
conda
无报错即可
5、安装torch环境和cuda支持
conda create -n pytorch 创建一个虚拟环境 激活虚拟环境
conda activate pytorch
https://pytorch.org/
官网下载pytorch
根据下面生成的命令安装环境
source activate
conda activate pytorch
执行复制的命令
pip3 install torch torchvision torchaudio --extra-index-url
CUDA测试
python
import torch
torch.cuda.is_available()
完功!
nvidia驱动下载页更新查找旧版驱动地址https://www.nvidia.com/en-us/drivers/unix/linux-amd64-display-archive/
显卡驱动突然崩了
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
重新安装驱动
sudo apt-get remove nvidia-* sudo apt-get autoremove
sudo apt-get autoremove
sudo nvidia-uninstall
sudo ./NVIDIA-Linux-x86_64-381.22.run -no-x-check -no-nouveau-check -no-opengl-files
切换nvidia显卡/inter
sudo apt install nvidia-prime
sudo prime-select nvidia
- 系统在配置文件中禁用了nvidia-drm 模块
解决方法:
执行以下命令:
$ grep nvidia /etc/modprobe.d/* /lib/modprobe.d/*
运行结果如下,可能不同机器的结果会有小出入,但可见NVIDIA的一些模块被禁用:
/etc/modprobe.d/blacklist-framebuffer.conf:blacklist nvidiafb
/lib/modprobe.d/blacklist-nvidia.conf:# This file was generated by nvidia-prime
/lib/modprobe.d/blacklist-nvidia.conf:blacklist nvidia
/lib/modprobe.d/blacklist-nvidia.conf:blacklist nvidia-drm
/lib/modprobe.d/blacklist-nvidia.conf:blacklist nvidia-modeset
/lib/modprobe.d/blacklist-nvidia.conf:alias nvidia off
/lib/modprobe.d/blacklist-nvidia.conf:alias nvidia-drm off
/lib/modprobe.d/blacklist-nvidia.conf:alias nvidia-modeset off
/lib/modprobe.d/nvidia-kms.conf:# This file was generated by nvidia-prime
/lib/modprobe.d/nvidia-kms.conf:options nvidia-drm modeset=1
因此需要将这些blacklist文件删除或者转为.bak文件(可能不同机器文件名不同,可视上一命令运行结果定)
cd /etc/modprobe.d/
sudo mv blacklist-nvidia.conf blacklist-nvidia.conf.bak
cd /lib/modprobe.d/
sudo mv blacklist-nvidia.conf blacklist-nvidia.conf.bak
解决以上,重启后,再行安装即可
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具