Ubuntu 服务器 pytorch 版本调研

近期,因为服务器环境配置过低,一些网络模型框架和第三方包都无法下载使用,因此决定对服务器环境调研。
主要是针对服务器深度学习pytorch开发环境,以及 tmux 在不使用 apt-get 的情况下安装使用。

服务器基本信息查看

查看服务器 CPU 信息

cat /proc/cpuinfo

查看 linux版本号,操作系统版本

cat /proc/version 

查看 GPU 硬件信息

nvidia-smi

虽然说硬件信息是可以的,但是 CPU 和 GPU版本太老了,而又因为某些原因不能升级,因此需要对当期版本适用的 pytorch 调研。

GITHUB 仓库版本要求

很多 github 的代码,都对包的版本有一定的要求,我们以某个仓库为例,进行分析。
以 detectron2 为例,打开代码仓库 detectron2
查看 readme.md 文档

点进去发现,他的 requirements 要求

可以发现,先前 cat /proc/version 信息中的 gcc & g++ 信息已经不满足了。。。。
但是我们可以接着往下看 pytorch 1.8 最低需要什么配置

pytorch 环境要求

首选我们进入 pytorch 官网 查看 install ,然后选择更老的版本 pytorch 。

通过搜索 pytorch==1.8,找到我们对应的 pytorch 版本信息,发现 cudatoolkit版本最低为 10.2,那我们看看最低配的需要什么信息。

cuda 环境要求

CUDA Toolkit 和 Driver Version的 版本对应关系
英伟达CUDA Toolkit&Driver Version

可以发现,10.2 cuda toolkit 需要 driver version >= 440.33,但是当前驱动信息 430 driver version,显然不行。

下一步只能考虑升级驱动信息,在此进行英伟达官网,找到合适的版本

这个地方可以给计算机更新驱动,下载更新即可。

但是,英伟达 CUDA Toolkit 历史工具包的网址,查看 CUDA toolkit 10.2。他对 操作系统是有限制的。
也就是说,即使更新了驱动, driver version 得到了提升,但是因为操作系统的限制,仍旧无法安装 CUDA toolkit 10.2,可以看到 os 要求 16.04或者 18.04

总结

经过一系列的调查深究,将服务器的环境的矛盾定位到了操作系统版本低,进而导致 GPU 硬件难以升级,cuda toolkit 版本过低等等。
同时 gcc & g++ 也是需要升级的。

但是,服务器操作系统升级容易对我们已有部署的环境造成破坏,因此不予考虑。

posted @ 2022-06-25 16:03  lucky_light  阅读(149)  评论(0编辑  收藏  举报