巴星项目服务器运维手册
巴星项目服务器运维手册
一、硬件介绍
主机名 服务器类型 OS 基本配置 角色 备注
workstation01 工作站 winserver 2013 20C,64G windows相关软件
workstation02 工作站 centos7.6 20C,64G windows相关软件
lvs01 操作服务器 centos7.6 20C,64G HA、LB 高可用、负载均衡
lvs02 操作服务器 centos7.6 20C,64G HA、LB 高可用、负载均衡
master01 操作服务器 centos7.6 20C,64G master k8s主节点
master02 操作服务器 centos7.6 20C,64G master
node01 计算服务器 centos7.6 36C,128G master
node02 计算服务器 centos7.6 36C,128G node k8s-node节点
node03 计算服务器 centos7.6 36C,128G node
node04 计算服务器 centos7.6 36C,128G node
node05~node12 计算服务器 centos7.6 36C,128G node
gpu01 GPU服务器 centos7.6 36C,128G node k8s-GPU节点
gpu02 GPU服务器 centos7.6 36C,128G node k8s-GPU节点
服务架构图如下
二、常见K8S集群运维方法
1、查看集群所有节点运行状态
kubectl get nodes
2、查看集群k8s服务状态
kubectl get pods -n kube-system
3、查看集群所有服务状态
kubectl get pod -A
4、查看集群某个服务的描述信息
如:
kubectl describe pods -n tools redis-0
5、查看集群某个服务的日志信息
kubectl logs -f -n tools redis-o
6、重启集群某个服务
kubectl delete pods -n tools redis-o
7、重建集群某个服务,进入集群的配置文件所在目录
运行restart.sh脚本,如:sh restart.sh
或者 kubectl delete -f .
kubectl create -f .
8、集群配置文件均在master01上面,所在路径如下
factory的配置文件
/opt/app/parallel-v2.1/deployment
地面信息处理系统的配置文件
/opt/app/pie-engine-bpaas
/opt/app/pie-engine-server
/opt/app/tools
三、常见故障处理
1、地面信息处理平台出现无法登录或者业务访问报错,一般是bpaas网关的问题
解决办法:重启bpaas服务或者重建bpaas服务,首选运行bpaas重启服务,如果重启后依然有故障,再运行bpaas重建服务
a、重启bpaas服务
进入master01服务器
进入bpaas目录:cd /opt/app/pie-engine-bpaas
运行重启脚本: sh 01restart_all.sh
8、集群配置文件均在master01上面,所在路径如下
factory的配置文件
/opt/app/parallel-v2.1/deployment
地面信息处理系统的配置文件
/opt/app/pie-engine-bpaas
/opt/app/pie-engine-server
/opt/app/tools
三、常见故障处理
1、地面信息处理平台出现无法登录或者业务访问报错,一般是bpaas网关的问题
解决办法:重启bpaas服务或者重建bpaas服务,首选运行bpaas重启服务,如果重启后依然有故障,再运行bpaas重建服务
a、重启bpaas服务
进入master01服务器
进入bpaas目录:cd /opt/app/pie-engine-bpaas
运行重启脚本: sh 01restart_all.sh
b、重建bpaas服务
进入master01服务器
进入bpaas目录:cd /opt/app/pie-engine-bpaas
运行重建脚本: sh 02install_all.sh
2、如果地面信息的某个功能服务不正常,可以进入tools目录,重启es、redis、zookeeper,如以下
进入 /opt/app/tools/es 运行restart.sh
注意:由于es/zookeeper有创建PVC,在删除的时候不会彻底删除,需要单独删除PVC,如下步骤
a、删除
kubectl delete -f .
b、查看对应的PVC
kubectl get pvc -n tools
c、删除es的pvc
kubectl delete pods -n tools data-es-cluster-0
kubectl delete pods -n tools data-es-cluster-1
kubectl delete pods -n tools data-es-cluster-2
d、创建es服务
kubectl create -f .
4、factory的问题处理
通过kubectl get pod -A 查看factory那个服务有异常,就单独去重启那个服务
部署文件路径为:
master01:/opt/app/parallel-v2.1/deployment
先删除服务
kubectl delete -f .
再创建
kubectl create -f .
如果问题任然存在,就直接重启factory所有的服务
路径为:
master01:/opt/app/parallel-v2.1/k8s-script
运行重启脚本
sh restart_app.sh
等待几分钟,待重启完再观察
5、harbor镜像仓库的问题
harbor镜像仓库均部署在lvs01和lvs02上面,2个服务器上面的配置文件一模一样 ,lvs01为主用,lvs02为备用,部署文件路径为/opt/app/harbor,理论上已经把harbor加入了systemctl自启动,服务器重启harbor服务会自动启动,如果出现harbor镜像仓库的问题,进入/opt/app/harbor目录,重启服务sh restart.sh
6、proftp服务的问题
proftp均部署在lvs01和lvs02上面,2个服务器上面的配置文件一模一样 ,lvs01为主用,lvs02为备用,部署文件路径为/opt/app/tools/proftp,理论上已经把proftp加入了systemctl自启动,服务器重启proftp服务会自动启动,如果出现proftp的问题,进入/opt/app/tools/proftp目录,重启服务sh restart.sh
7、关于HA(高可用)和LB(负载均衡)的问题
为了实现HA和LB采用的是在lvs01和lvs02上面部署keeplived和nginx来实现的,keeplived的配置文件路径为:/etc/keepalived,nginx采用docker容器的方式部署,配置文件路径为:/opt/app/nginx,已经做好配置,lvs01服务器断了,虚拟IP会自动迁移到lvs02上面,如果nginx服务断了,keeplived会自动重启nginx,不用人为干预,