从重装服务器到运行深度学习记录
从重装服务器到部署运行yolox
unbuntu重装
我这里的服务器是华硕的主板,本来学长都已经装好了,但是我们改了一些系统参数文件,直接给系统改崩了。只能推倒重来。整个过程踩坑无数,真的是几乎想跳楼。
华硕主板的bios整的花里胡哨的,开机F2进入bios后,F7进入更多设置把fast boot给关掉,还有security boot这个我找了半天找不到,后来才发现原来改成中文的了,叫安全模式好像,可能是对主板的保护,是灰色的不能修改。就算了。
修改完保存,按F8选择刻录好的系统盘。如果机子有nvidia的显卡貌似会卡住,在选择界面按e,把quiet splash - - - 改成 quiet splash acpi=off就ok了然后才能安装成功。
配置ssh和ftp协议
因为需要使用xshell和sftp这两个软件,我这里装的是桌面版的ubuntu,需要自己配置服务。这个简单,没坑直接按照引用博客
装显卡驱动,cuda和cudnn
显卡驱动
- 卸载显卡驱动
sudo apt-get purge nvidia*
- 查找可用的驱动版本
ubuntu-drivers devices
- 查找本机内核版本
cat /proc/driver/nvidia/version
- 安装
sudo apt-get install nvidia-driver-440 nvidia-settings nvidia-prime
- 检验
nvidia-smi
cuda
- 在nvidia官网 选择deb安装即可,按照官网的给的流程 https://developer.nvidia.com/cuda-toolkit-archive
- 配置环境变量
vim ~/.bashrc
export CUDA_HOME=/usr/local/cuda export PATH=$PATH:$CUDA_HOME/bin export LD_LIBRARY_PATH=/usr/local/cuda-10.2/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
source ~/.bashrc
cudnn
我在安装pytorch时给我集成上了,没有单独安装
tar -xvf cudnn-11.3-linux-x64-v8.2.0.53.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda-11.4/targets/x86_64-linux/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-11.4/targets/x86_64-linux/lib/
sudo chmod a+r /usr/local/cuda-11.4/targets/x86_64-linux/include/cudnn.h
sudo chmod a+r /usr/local/cuda-11.4/targets/x86_64-linux/lib/libcudnn*
cat /usr/local/cuda-11.4/targets/x86_64-linux/include/cudnn.h | grep CUDNN_MAJOR -A 2
附一个当时安装的过程,虽然失败了
pytorch
官网安装,即可,选择号对应的cuda什么的
给文件价权限
chmod 777 文件夹名字
给用户root权限
修改 /etc/passwd 文件,找到如下行,把用户ID和后面那个数字都改为0。这一步如果搞错了,可能切换不了用户。
yolox
根据官方给的运行过程。pycocotools安装不上。
conda install -c conda-forge pycocotools
用这个安装
apex那个包也安装不上
主要是git都git不下来。我这边是,先windows把apex-master下载下来,然后xftp传上去
最后
python3 setup.py install
安装即可
然后按照官方给的步骤运行即可
关于普通用户使用cudnhttps://zhuanlan.zhihu.com/p/440688732