武大超算

一、

登录节点 swarm.whu.edu.cn (202.114.96.180)
文件传输 202.114.96.177

module avail
module load anaconda
module unload anaconda
squeue
srun --cpus-per-task=4 -p hpxg -u python downsample.py
srun -A supervisor --cpus-per-task=2 --gres=gpu:1 -p gpu -u python train.py
sbatch myjob.sbatch
scancel JobID
accountInfos supervisor
ssh-keygen -R g0003

二、myjob.sbatch

myjob.sbatch:

#!/bin/bash

#SBATCH --account=supervisor
#SBATCH --partition=gpu
#SBATCH --nodes=1
#SBATCH --cpus-per-task=3
#SBATCH --gres=gpu:2
#SBATCH --time=72:00:00

module load anaconda
source ~/.bashrc
conda activate <env_name>

cd $SLURM_SUBMIT_DIR

python train.py

dos2unix myjob.sbatch

三、squeue

squeue 显示的信息包括以下内容

  • JobID,作业编号

  • PARTITION,作业在哪个分区上运行

  • NAME,作业名称,默认是作业脚本的名字

  • USER,作业的所有者

  • ST,作业当前状态,详见 Job State Codes,常见的有

    • CG 作业正在完成
    • F 作业失败
    • PD 作业正在等待分配资源
    • R 作业正在运行
  • TIME,作业已运行时间

  • NODES,作业占用的计算节点数

  • NODELIST,作业占用的计算节点名

  • (REASON),作业正在等待执行的原因,详见 Job Reason Codes,常见的有

    • Asso<Resource>Limit 作业申请的资源超过允许的最大数量
    • Priority 作业正在排队等待

显示的状态信息里包括了作业程序运行所在的计算节点名,使用 ssh 计算节点名 可以登录到计算节点。在计算节点上,使用 top 命令可以查看程序使用 CPU 的状况,如果是 GPU 程序,使用 nvidia-smi 命令可以查看程序使用 GPU 的状况。

四、流程

1.

申请账号,关联主账号,登陆,改密码

2.

module load anaconda
conda create -n <env_name> python=3.7
重启shell
conda activate <env_name>

3.配置用户 conda 目录

http://docs.hpc.whu.edu.cn/files/whuhpcdocs.wiki/installation/python.html

4.换镜像源

https://www.cnblogs.com/holaworld/p/14565431.html

5.安装软件包

装pytorch:conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=10.2 -c pytorch
批量导出:conda list -e > requirements.txt | pip freeze > requirements.txt
批量安装:conda install --yes --file requirements.txt | pip install -r requirements.txt | conda create --name <env_name> --file requirements.txt

6.运行程序

srun --cpus-per-task=4 -p hpxg -u python downsample.py
srun -A supervisor --cpus-per-task=2 --gres=gpu:1 -p gpu -u python train.py
sbatch myjob.sbatch

http://hpc.whu.edu.cn/index.htm
http://docs.hpc.whu.edu.cn/
http://hpc.whu.edu.cn/info/1008/1057.htm
https://blog.csdn.net/qq_36227457/article/details/105545309
https://blog.csdn.net/carry_hjr/article/details/108501644

posted on 2021-01-24 11:57  HolaWorld  阅读(437)  评论(0编辑  收藏  举报

导航