torque提交作业
PBS(Protable Batch System)是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。 PBS的目前包括openPBS,PBS Pro和Torque三个主要分支。其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBS pro是PBS的商业版本,功能最为丰富。Torque是Clustering公司接过了OpenPBS,并给与后续支持的一个开源版本。
几个常用命令:
1.qsub(提交作业)
例:
qsub -l mem=20g,vmem=20g -l nodes=fat03 -l nodes=1:ppn=1 -l walltime=144:00:0 -V -joe -q fat -d /data/nfs/fat/home/ test.sh
也可写成:(把所有-l的参数可以合并一起,以逗号分隔)
qsub -l mem=20g,vmem=20g,nodes=fat03,nodes=1:ppn=1,walltime=144:00:0 -V -joe -q fat -d /data/nfs/fat/home test.sh
qsub常用参数
-l 指定作业所需要的资源,设定对可消耗资源的限制。如果不设置,则无限制。
-l mem=220g,vmem=220g(根据文件大小、文件处理方式、计算复杂情况自行估计)
mem 任务的所有进程能够分配到的最大物理内存数;
vmem任务的所有进程能够使用的最大虚拟内存数;
-l nodes=fat03
指定节点名字
-l nodes=1:ppn=10(有时软件内部会有设置线程的参数,实际运行时,两者取最小)
指定使用节点数及线程数
-l walltime=144:00:0
指定运行最长时间,walltime指钟表时间(作业的实际运行时间=walltime/线程数)
-V -joe -q fat -d
-V 表明qsub命令的所有环境变量都export到此作业
作用: 以脚本文件的形式向批处理服务器提交作业
-joe错误日志和运行日志输出到同一个文件下
-q指定作业的目的地(结点池),此处指定为fat节点
-d 路径,作业输出文件产生路径(每一个作业都会产生一个 文件名.o作业号,该文件出现在-d指定的路径中)
2.qstat(查看作业状态,作业结束一段时间后查看不到)
查看作业状态:R运行、Q排队、C终止(可能是结束、也可能是出错中断)
提交作业会在指定目录下产生.oXXXX文件(例如test.sh.o106972),文件内包含程序运行的输出信息,及错误信息,可根据文件内容判断作业是否是正常结束
3.qdel(kill作业)
kill已提交作业
qdel 作业号
qdel 106970
4.tracejob(查看作业情况,作业结束之后仍能查看)
tracejob –n 查找天数 job_id
tracejob –n 10 106972(查找10天内的记录,寻找106972的作业信息)
tracejob 106972不加时间参数,查找当天作业
在返回结果中会显示提交任务的设置信息,及程序运行时的内存和时间实际使用信息
5.qnodes(查看节点状态)
qnodes | less查看节点状态
根据节点可用情况指定作业提交节点
qnodes | grep job_id
提交作业未指定节点时,可以使用qnodes结合grep job_id方式查看作业分配的节点