windows / linux 安装CUDA+Pytorch环境+注意事项
前言:
最近跑代码发现我的环境配置有一些问题,所以需要仔细检查一下我的CUDA环境以及重装Torch,由于也在服务器的linux环境重装了torch,有很多重复的步骤,总是记不住,所以写一篇博客来记一记,以后方便自己查看。
正文:
前提:主机已安装Anaconda,具备显卡。
1.查看及安装自己电脑适配的CUDA驱动器+cudann。
参考这篇博客,这里列一些注意注意事项,建议先看了再参考:
(a) 如下图所示,右侧的支持驱动版本11.0.228是支持的最高版本,你可以装稍微低一点的版本,但是不能高于此版本。比如我就是装的10.1的版本,可以正常使用。
(b)网上可以看到下表,我的驱动程序版本是452.56(也就是可以支持11.0.3),但是还是那句话,这个最高版本,对于容易冲动一股脑就下载最高版本的人来说,下载低一点的比较好,但也不是多低都可以,比如目前RTX3060不支持CUDA 11以下版本。
(c)Cudann由于下载速度太慢,建议大家机智上网,我的火狐浏览器即使机智上网速度依然很慢,所以用的谷歌,当然,也可能因人而异。
注意一定要下载匹配自己刚才下载的CUDA版本,不然。。。就太惨啦!
2 Conda新建环境安装pytorch(快速安装,速度可观
如果你之前给Conda配置过其他源,可能会在创建虚拟环境过程中出一些很奇怪的错误,错误的最后提示是要不要上传当前错误情况,这里提前避免一下,linux 和 windows 下面操作相同(两个环境我都跑了,建议大家直接食用。
2.1 恢复默认源-创建虚拟环境。
# linux 系统如果从根目录直接想访问conda的话,可以先输入下面两句话,就可以正常使用conda命令了 echo 'export PATH="~/anaconda3/bin:$PATH"'>>~/.bashrc source ~/.bashrc # 下面创建步骤 windows 和 linux 相同 conda config --remove-key channels # 恢复默认源 conda create -n mynewenv python=3.6.5 # 创建python版本为3.6.5的虚拟环境,环境名字叫做mynewenv,你可以换一个你想要的名字
2.2 创建torch环境
# 下面步骤 windows 和 linux 相同 conda activate mynewenv # 进入刚才创建的虚拟环境 # 添加源 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --set show_channel_urls yes conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/ # 输入命令下载torch,参考网址:https://pytorch.org/ # 选择适合你cuda版本的命令,注意命令后面的-c python要删掉!!! # 注意:cuda10.1好像仅针对1.7.1版本的torch可用,我于2022/1下载最新的无法使用... ########################################################### # 2023/1更新:之前的conda命令会自动下载cpu版本的pytorch,建议linux环境下使用pip下载whl指定cuda版本,来下载GPU版本的torch # 使用这个网址,离线下载你需要的cuda环境的torch版本,https://pypi.org/project/torch/#files,这个网址下载torchvision:https://pypi.org/project/torchvision/#files 下面的例子自动从官网下载(速度极慢): pip install torch1.3.0+cu101 torchvision0.4.1+cu101 -f https://download.pytorch.org/whl/torch_stable.html # 如果不是指定版本,可以直接下载指定cuda版本的torch-比如cuda10.1版本 pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu101 # conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.1 #我发现windows和linux命令是相同的...
删除官网命令后面的-c python之后的速度会快很多!否则得下到猴年马月啊,因为-c python的意思是使用官网源下载,不是我们添加的清华源,所以速度会慢很多,但是由于使用的其他源,也会有一些问题出现。比如说,缺少一些包之类的,可以输入conda list检查一下重要的三个包在不在。(pytorch / torch, torchvision , torchaudio, cudatoolkit)
2.3 检查torch是否安装成功
#windows 与 linux一致: 在刚才的虚拟环境下 进入python python
# 执行代码 import torch
# 判断torch是否安装成功 x = torch.rand(5,5)
print(x)
# 判断cuda是否安装成功可正常与torch共同使用
torch.cuda.is_available()
# 如果返回的是ture,则结束啦!正常的!后面会记录一些你可能会出现的错误,比如这里返回false
3 一些问题的解决方法
3.1 输入torch.cuda.is_available() 返回 false 无其他报错
解决办法:新建虚拟环境,重装torch。(前提:确认我的cuda版本支持以及cudann版本匹配,两者安装路径及步骤正确。
3.2 输入torch.cuda.is_available() 返回 false 有报错
报错信息如下图所示,提示cuda可能有一些问题。
解决办法:将安装的cuda驱动unload再reload,建议自行搜索教程。
3.3 输入nvidia-smi,报错:Failed to initialize NVML: Driver library version mismatch
解决办法:同3.2
4 记录一些额外的conda指令
# 以下命令 windows 和 linux一致 # 删除虚拟环境 conda remove -n mynewenv --all # 退出虚拟环境 conda deactivate # 如果不能正常进入虚拟环境按照下面两个步骤: # step 1 source activate mynewenv # step 2 conda activate mynewenv # 查看已有的虚拟环境 conda-env list # linux conda info -e # windows # 备份/ 克隆虚拟环境 conda create -n newenv --clone olden
5 参考博客:
https://www.cnblogs.com/guan-zl/p/12986253.html
https://blog.csdn.net/suiyueruge1314/article/details/89472914
ps:很久之后来用这篇文章,发现图片都不可见了,后续搜索问题后知道,之前的直接复制到这里的图片尽量还是保存到本地,然后使用“上传图片”功能来添加图片,当然以往的未显示图片的博客可以重新编辑-此时图片又可见了,再使用【上传图片】功能更新博客即可。