使用实验室服务器跑代码的几点注意事项

(一)在根目录下新建一个自己的文件夹

因为实验室的服务器一般很多人用,所以新建一个自己的文件夹方便管理。

(二)查看GPU使用情况

打开terminal,输入nvidia-smi

可以看到,这个服务器用7块GPU。总量都是32510MiB。编号为0的GPU(默认用这块GPU跑)占用了2091MiB,是有人在用这块GPU跑代码。此时我们跑代码就应该选择其他GPU。

(三)跑我们自己的代码

首先打包自己的代码文件成一个zip,上传到服务器里。
再在terminal中输入pwd。查看此时的路径,cd进zip文件的路径下。
在terminal中输入unzip xxx.zip。解压文件。
如果报错:ubuntu error start of central directory not found; zipfile corrupt.
则在terminal中使用如下命令:
sudo apt-get install fastjar
jar xvf xxx.zip

在代码中添加:

torch.cuda.set_device(3)  #3是我准备使用的GPU的编号
在pytorch中指定使用的显卡的详细方法:在pytorch中指定显卡 - 知乎 (zhihu.com)
再cd进main.py所在的目录下,输入python main.py,就可以运行代码啦。

(四)终止代码运行

 首先通过nvidia-smi根据GPU和Process name查找代码运行线程对应的PID。

 使用如下命令即可终止程序运行:

sudo kill -9 yourPID
如果要kill 多个进程,命令为:
sudo kill -9 PID1 PID2 PID3
 
补充:linux系统下的解压缩文件
解压的方法:要先cd进存放zip文件的目录,然后在terminal输入如下命令。
unzip xxx.zip

压缩的方法:

zip -r -q -o pack.zip /root

上面命令将目录/root 下的所有文件,打包成一个压缩文件。第一行命令中,

-r 参数表示递归打包包含子目录的全部内容,

-q 参数表示为安静模式,即不向屏幕输出信息,

-o 表示输出文件,需在其后紧跟打包输出文件名

 

posted @ 2022-11-21 17:15  实数集  阅读(581)  评论(0)    收藏  举报