使用实验室服务器跑代码的几点注意事项
(一)在根目录下新建一个自己的文件夹
因为实验室的服务器一般很多人用,所以新建一个自己的文件夹方便管理。
(二)查看GPU使用情况
打开terminal,输入nvidia-smi
可以看到,这个服务器用7块GPU。总量都是32510MiB。编号为0的GPU(默认用这块GPU跑)占用了2091MiB,是有人在用这块GPU跑代码。此时我们跑代码就应该选择其他GPU。
(三)跑我们自己的代码
首先打包自己的代码文件成一个zip,上传到服务器里。
再在terminal中输入pwd。查看此时的路径,cd进zip文件的路径下。
在terminal中输入unzip xxx.zip。解压文件。
如果报错:ubuntu error start of central directory not found; zipfile corrupt.
则在terminal中使用如下命令:
sudo apt-get install fastjar jar xvf xxx.zip
在代码中添加:
torch.cuda.set_device(3) #3是我准备使用的GPU的编号
在pytorch中指定使用的显卡的详细方法:在pytorch中指定显卡 - 知乎 (zhihu.com)
再cd进main.py所在的目录下,输入python main.py,就可以运行代码啦。
(四)终止代码运行
首先通过nvidia-smi根据GPU和Process name查找代码运行线程对应的PID。

使用如下命令即可终止程序运行:
sudo kill -9 yourPID
如果要kill 多个进程,命令为:
sudo kill -9 PID1 PID2 PID3
补充:linux系统下的解压缩文件
解压的方法:要先cd进存放zip文件的目录,然后在terminal输入如下命令。
unzip xxx.zip
压缩的方法:
zip -r -q -o pack.zip /root
上面命令将目录/root 下的所有文件,打包成一个压缩文件。第一行命令中,
-r 参数表示递归打包包含子目录的全部内容,
-q 参数表示为安静模式,即不向屏幕输出信息,
-o 表示输出文件,需在其后紧跟打包输出文件名