Centos 7, Torque 单节点部署 (转载)
2019-10-12 19:40 丨o聽乄雨o丨 阅读(1323) 评论(0) 编辑 收藏 举报转载自https://www.cnblogs.com/zhaosongbin/p/8492470.html,主要用途为自己学习和记录。
1. 准备工作
安装Torque必须首先配置linux主机名称,服务器主机名称大多默认localhost,不建议直接使用localhost。我这里修改为master。
显示当前主机名:
1 [root@master ~]# hostname localhost.localdomain
修改方法:
1 [root@master ~]# hostnamectl set-hostname master
2 [root@master ~]# master
系统:centos7.x
主机:master
用户:root
作者使用torque版本:6.1.1.1
下载链接:http://wpfilebase.s3.amazonaws.com/torque/torque-6.1.1.1.tar.gz
2. 安装和配置Torque
首先下载解压torque
1 [root@master ~]# cd Downloads 2 [root@master ~]# wget http://wpfilebase.s3.amazonaws.com/torque/torque-6.1.1.1.tar.gz #下载torque 3 [root@master Downloads]# tar zxvf torque-6.1.1.1.tar.gz # 解压安装包 4 [root@master Downloads]# cd torque-6.1.1.1
安装torque依赖包
1 [root@master torque-6.1.1.1]# yum install libxml2-devel openssl-devel gcc gcc-c++ boost-devel libtool-y
编译安装torque
1 [root@master torque-6.1.1.1]# ./configure --prefix=/usr/local/torque --with-scp--with-default-server=master 2 [root@master torque-6.1.1.1]# make -j 20 3 [root@master torque-6.1.1.1]# make install
4 [root@master torque-6.1.1.1]# make packages
5 [root@master torque-6.1.1.1]# libtool --finish /usr/local/torque/lib
配置服务:pbs_server PBS,pbs_sched,pbs_mom,trqauthd
1 [root@master torque-6.1.1.1]# cp contrib/init.d/{pbs_{server,sched,mom},trqauthd} /etc/init.d/ 2 [root@master torque-6.1.1.1]# for i in pbs_server pbs_sched pbs_mom trqauthd; do chkconfig --add $i; chkconfig $i on; done # 遇见y/n选择y回车继续
设置Torque环境变量
1 [root@master torque-6.1.1.1] # vim /etc/bashrc # 将下列代码加入环境变量 #torque TORQUE=/usr/local/torque export PATH=$TORQUE/bin:$TORQUE/sbin:$PATH
以root用户启动服务
1 [root@master torque-6.1.1.1]# ./torque.setup root # 尝试以root启动,可能会报错,下面会解决 2 [root@master torque-6.1.1.1]# qterm # 运行qterm关闭服务 3 [root@master torque-6.1.1.1]# ps -e | grep pbs # 查找pbs服务 4 [root@master torque-6.1.1.1]# kill -9 xxxx(PID) # 关闭服务 5 [root@master torque-6.1.1.1]# vim /etc/hosts # 添加一行
172.16.x.xxx master # 需要添加的一行,master前写自己的ip
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
6 [root@master torque-6.1.1.1]# ./torque.setup root # 再次尝试以root启动服务,遇到y/(n),选y
开启服务pbs_server,pbs_sched,pbs_mom,trqauthd
1 [root@master torque-6.1.1.1]# qterm #关闭服务 2 [root@master torque-6.1.1.1]# for i in pbs_server pbs_sched pbs_mom trqauthd; do systemctl start $i; done
指定计算节点
添加计算节点”master”,设置CPU的数量
检查CPU的数量通过使用命令“lscpu”或“nproc”
1 [root@master torque-6.1.1.1]# vi /var/spool/torque/server_priv/nodes master np=48 # 添加本行信息,注意等号前后不要有空格 master是主机名,np后面填核数 2 [root@master torque-6.1.1.1]# vi /var/spool/torque/mom_priv/config pbsserver master # 添加这两行信息 master是主机名 logevent 255
检查PBS的信息
1 [root@master torque-6.1.1.1]# ps -e | grep pbs 11188 ? 00:00:00 pbs_sched 11215 ? 00:00:00 pbs_mom 29683 ? 00:00:00 pbs_server 2 [root@master torque-6.1.1.1]# for i in pbs_server pbs_sched pbs_mom trqauthd; do systemctl restart $i; done Restarting pbs_server (via systemctl): [ OK ] Restarting pbs_sched (via systemctl): [ OK ] Restarting pbs_mom (via systemctl): [ OK ] Restarting trqauthd (via systemctl): [ OK ]
创建队列默认信息
1 [root@master torque-6.1.1.1]# qmgr -c 'create queue master' 2 [root@master torque-6.1.1.1]# qmgr -c 'set queue master queue_type= execution' 3 [root@master torque-6.1.1.1]# qmgr -c 'set queue master started= true' 4 [root@master torque-6.1.1.1]# qmgr -c 'set queue master enabled= true' 5 [root@master torque-6.1.1.1]# qmgr -c 'set queue master resources_default.walltime= 240:00:00' 6 [root@master torque-6.1.1.1]# qmgr -c 'set queue master resources_default.nodes= 1' 7 [root@master torque-6.1.1.1]# qmgr -c 'set server default_queue= master'
提交任务测试
1 [root@master torque-6.1.1.1]# qnodes master state = free power_state = Running np = 48 ntype = cluster status = opsys=linux,uname=Linux master 3.10.0-957.el7.x86_64 #1 SMP Thu Nov 8 23:39:32 UTC 2018 x86_64,sessions=17676,nsessions=1,nusers=1,idletime=8771,totmem=184157240kb,availmem=182764688kb,physmem=131728444kb,ncpus=48,loadave=0.01,gres=,netload=2178618,state=free,varattr= ,cpuclock=Fixed,macaddr=ac:1f:6b:95:c5:fc,version=6.1.1.1,rectime=1570879565,jobs= mom_service_port = 15002 mom_manager_port = 15003 2 [root@master torque-6.1.1.1]# su wangq 3 [wangq@master torque-6.1.1.1]# echo sleep 10 | qsub 2.master 4 [wangq@master torque-6.1.1.1]# qstat Job ID Name User Time Use S Queue ------------------------- ---------------- --------------- -------- - ----- 2.master STDIN jianghf 0 R master 5 [wangq@master torque-6.1.1.1]# qstat -a -n master: Req'd Req'd Elap Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time ----------------------- ----------- -------- ---------------- ------ ----- ------ --------- --------- - --------- 2.master jianghf master STDIN 19780 1 1 -- 240:00:00 C -- master/0
主机名和现有主机名不一致的问题解决方案:
这个问题一直没有找到出现的原因,但是怀疑是之前的Torque删除时没有删除干净,在“创建队列的默认信息”这一步的缓存依然存在。
在Torque安装成功后,停止Torque
1 [root@master torque-6.1.1.1]# for i in pbs_server pbs_sched pbs_mom trqauthd; do systemctl stop $i; done # 停止服务 2 [root@master torque-6.1.1.1]# ./torque.setup root # 重新运行这一步 3 [root@master torque-6.1.1.1]# vi /var/spool/torque/server_priv/nodes master np=48 # 添加这一行 4 [root@master torque-6.1.1.1]# for i in pbs_server pbs_sched pbs_mom trqauthd; do systemctl restart $i; done # 重新启动服务 5 [root@master torque-6.1.1.1]# qnodes # 查询状态,成功
作者:丨o聽乄雨o丨
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。