pytorch环境CUDA搭建

安装nvidia驱动

查看系统版本

cat /etc/os-release

查看显卡型号

sudo lshw -numeric -C display

安装编译工具

sudo apt-get install g++ make build-essential

卸载旧驱动

sudo apt-get remove --purge nvidia*

1、nvidia官网下载驱动

https://www.nvidia.com/Download/index.aspx?lang=en-us

选择显卡对应的版本驱动

 

 示例:sudo wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/510.68.02/NVIDIA-Linux-x86_64-510.68.02.run

/etc/modprobe.d/blacklist.conf 中查看nouveau   驱动是否阻止自动加载,nouveau为开源nvidia驱动和nvidia官方驱动有冲突,要安装官门驱动需要禁用nouveau驱动加载

禁止nouveau加载

blacklist nouveau

保存blacklist.conf文件

sudo update-initramfs -u 更新

重启计算机

lsmod | grep nouveau   查看nouveau驱动是否加载

根据你所启用的桌面环境安装相应的桌面环境服务

systemctl stop gdm3 (根据自己环境选)

2、安装

sudo chmod +x   NVIDIA-Linux-x86_64-510.68.02.run

sh NVIDIA-Linux-x86_64-510.68.02.run

挂载nvidia驱动

sudo modprobe nvidia

检查驱动是否安装成功

nvidia-smi

有正常显示界面即可    注意右上角cuda版本

3、安装cuda

根据nvidia-smi显示的CUDA版本号去官网下载

https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/

下载https://developer.nvidia.com/cuda-toolkit-archive

 

 选择runfile[local]方式安装.

示例:sudo sh cuda_11.6.2_510.47.03_linux.run

根据界面提示选择安装

安装完成配置环境变量

vim .bashrc

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.6/lib64

export PATH=/usr/local/cuda-11.6/bin:$PATH

地址根据你的实际安装路径填写,保存

source ~/.bashrc

查看cuda安装是否正常

nvcc -V

有正常显示版本号即可

4、安装anacoda

https://www.anaconda.com/

下载linux的sh版本

sh xxx.sh

安装完成编辑环境变量

vim ~/.bashrc
export PATH="/自己对应的路径名/anaconda3/bin:$PATH"
source ~/.bashrc
conda
无报错即可

5、安装torch环境和cuda支持

conda create -n pytorch 创建一个虚拟环境 激活虚拟环境
conda activate pytorch

https://pytorch.org/
官网下载pytorch

 

 根据下面生成的命令安装环境

source activate
conda activate pytorch
执行复制的命令
pip3 install torch torchvision torchaudio --extra-index-url
CUDA测试
python
import torch
torch.cuda.is_available()
完功!
nvidia驱动下载页更新查找旧版驱动地址https://www.nvidia.com/en-us/drivers/unix/linux-amd64-display-archive/
显卡驱动突然崩了

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

重新安装驱动

sudo apt-get remove nvidia-* sudo apt-get autoremove

sudo apt-get autoremove

sudo nvidia-uninstall

sudo ./NVIDIA-Linux-x86_64-381.22.run -no-x-check -no-nouveau-check -no-opengl-files

切换nvidia显卡/inter

sudo apt install nvidia-prime

sudo prime-select nvidia
  1. 系统在配置文件中禁用了nvidia-drm 模块

解决方法:

执行以下命令:

$ grep nvidia /etc/modprobe.d/* /lib/modprobe.d/*

运行结果如下,可能不同机器的结果会有小出入,但可见NVIDIA的一些模块被禁用:

/etc/modprobe.d/blacklist-framebuffer.conf:blacklist nvidiafb
/lib/modprobe.d/blacklist-nvidia.conf:# This file was generated by nvidia-prime
/lib/modprobe.d/blacklist-nvidia.conf:blacklist nvidia
/lib/modprobe.d/blacklist-nvidia.conf:blacklist nvidia-drm
/lib/modprobe.d/blacklist-nvidia.conf:blacklist nvidia-modeset
/lib/modprobe.d/blacklist-nvidia.conf:alias nvidia off
/lib/modprobe.d/blacklist-nvidia.conf:alias nvidia-drm off
/lib/modprobe.d/blacklist-nvidia.conf:alias nvidia-modeset off
/lib/modprobe.d/nvidia-kms.conf:# This file was generated by nvidia-prime
/lib/modprobe.d/nvidia-kms.conf:options nvidia-drm modeset=1

因此需要将这些blacklist文件删除或者转为.bak文件(可能不同机器文件名不同,可视上一命令运行结果定)

cd /etc/modprobe.d/
sudo mv blacklist-nvidia.conf blacklist-nvidia.conf.bak
cd /lib/modprobe.d/ 
sudo mv blacklist-nvidia.conf blacklist-nvidia.conf.bak

解决以上,重启后,再行安装即可

posted @   清风6661  阅读(73)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具
点击右上角即可分享
微信分享提示