使用GPU训练Pytorch模型
如何使用GPU训练Pytorch模型
这两天的深度学习实验真实让人头疼,传说中的“猫狗大战”,对模型的训练用CPU的话9h起步,12h是常态,大学生哪耗得起,因此查找资料搭建了GPU环境。
确定CUDA版本
首先你需要知道自己的电脑处理器,再去官网查看对应的CUDA版本:
我的处理器low了点,只配9.0的CUDA。
下载CUDA及对应版本的pytorch
然后你就需要知道9.0的CUDA怎么下载,很简单,找pyrotch官网
在Anaconda Prompt中运行该命令即可。
可能遇到的问题及解决方案
当然期间你会遇到各种问题:
问题一:CondaHTTPError: HTTP 000 CONNECTION FAILED for url ...
首先需要添加清华镜像:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
如果还不行,就需要更改C:\Users\86132下的.condarc配置:
问题二、到上面这步,那条命令基本可以成功执行,但过程中不出意外的话还会报错:
- 对于第一张图的错误,我们直接照它的提醒执行命令就行,如果失败可以手动指定版本:
conda install conda=4.12.0
- 对于第二张图的错误,只需简单的进入该文件夹,删除它提醒的文件即可。
至此,你应该可以成功执行之前的,命令下载了。
不!还没完,下载后你会发现你的jupyter不见了,emmmm,当时也是吓我一跳,不要慌,我们只需要简单的在amd中:
pip install jupyter
Pytorch版本降低后的问题
在之后的使用你会发现,由于大大降低了pytorch的版本,在实际运用中会出一些问题
1、torch.load("xxxx.pth")命令会报错,因为pytorch1.5以下的不再支持加载zip文件,当然我们可以直接令pretrained==true,重新拉取,不自己加载权重。
2、pandas在import时报错:ImportError: Can’t determine version for bottleneck,解决参考:https://blog.csdn.net/weixin_42233755/article/details/105693375 修改后需要清除jupyter的缓存:Restar & Clear Output
3、低版本的pytorch所使用的低版本CUDA其实空间会比较,往往只有3gbi,对于超大数据集的训练,会占据几乎所有的GPU空间,此时我们需要对模型进行相应的调整,batch_size降低,以及不计算梯度等,具体见https://blog.csdn.net/weixin_43760844/article/details/113462431
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库