超算CST DC分布式作业Main Controller 主控节点程序连接不上问题
基础点: CST DC MC主控节点配置文件:/etc/xdg/CST AG/CST DC Main Control2013.conf
CST DC SS求解器节点配置文件:/etc/xdg/CST AG/CST DC Solver Control2013.conf
MC进程:lsb-cst-mainController2013
SS进程:lsb-cst-solverserver2013
工作路径:/tmp/CSTMainControllerWork2013
/tmp/CSTSolverServerWork2013
问题:CST的main controller 程序在大量程序仿真时会出现失去响应和崩溃
ssh到主控节点(比如节点名是mc06):ssh mc06
查看main controller进程状态:/etc/init.d/lsb-maincontroller2013 status
1提示Not running ,侧重新开启/etc/init.d/lsb-maincontroller2013 start
2提示is up and running ,则表示程序正在运行,但可能已无响应,这个时候手动结束main controller进程和重启进程
第一步:ps -ef | grep CSTDCMaincontroller.real (查找到main controller进程的PID,可能会看到两个与main controller相关的进程,其中有一个进程是刚刚我们用grep 命令产生的进程,这个不用管它)
第二步:kill -9 pid (杀掉main controller进程)
第三步:ps -ef | grep CSTDCMaincontroller.real (重新确认系统已经没有main controller相关的进程了)
第四步:/etc/init.d/lsb-maincontroller2013 start (重新再启动main controller 进程)
这个时候再重新连接主控节点MC06就应该能连接上了 。