李志涛

导航

运维申请机器攻略

一、为什么要写这篇文章

最近由于工作需要总共申请了16台云主机,分别用于安装Kafka和elasticsearch集群,因为经验不足过程较为曲折,时间花费比较长。体会如下,因为公司业务高速发展,运维开发RD人力不足,很多基础设施未跟上。特别是运维自动化工具还没有上线,每步操作都是人肉,所以申请机器周期变长,虽然运维同学付出百般努力和心血,依然无法应对我们申请大军的庞杂需求,难免有疏漏步骤。那我们该如何多做一些工作,辅助运维同学减轻他们负担并且达成我们的目标呢?具体实施步骤请看“如何高效正确申请”

二、如何高效正确申请

1.填写工单
申请机器需要提交2次工单 1.第一个工单申请云主机,但没有登录权限  2.第二个工单申请root权限
工单系统:http://monkey.xxx.xxx.com.cn
左边导航“工单管理–》提交工单”,选择“服务器申请-应用”

 

填写基础内容,这个比较容易

 

 以下内容组合(目录树)生成机器名称,机器名称需要符合命名规则,如果命名不符合预期,请联系运维创建相应目录树

 

 2.验证机器可用性

由于运维同学事情多、压力大、排队任务多,时常会被高优先级任务打断,有时因为中途被其他事情打断,可能会漏掉一些工作。
  1. 提交工单需要主动push,否则可能会先处理高优先级的,自己工单排单为低优先级状态
  2. 分配登录权限问题,有时可能没分配登录用户和root权限或分配不全
  3. 有时磁盘未挂载
  4. 机器有防火墙,端口无法访问
  5. 检查IP与主机匹配正确性
2.1 工单申请推进落地
RD如果不主动推进,可能提交的任务被排为低优先级,所以提交工单后,push老大审批通过,并主动到运维同学跟前沟通解决工单问题,很可能会加快处理。
2.2 检查登录权限
检查普通用户是否能正常登录,每台机器必须登录检查确认
[lizhitao1@l-tiger1.ops.prod.aws.dm ~]$  ssh  host
检查root权限是否正常,每台机器必须登录检查确认
[lizhitao1@l-tiger1.ops.prod.aws.dm ~]$  sudo -s
[root@l-callcenter-kafka-server1.mgt.beta.ali.dm lizhitao1]#
2.3 磁盘挂载检查
[root@l-callcenter-kafka-server1.mgt.prod.aws.dm lizhitao1]# fdisk -l

 

[root@l-callcenter-kafka-server1.mgt.prod.aws.dm lizhitao1]# df -h

 

怎么确定磁盘未挂载?

df -h 容量 远小于 < fdisk -l 
例如:我实际申请了500G,只分配了大约120G,这就是数据磁盘没有挂载

 

2.4 检查网络连通性(防火墙)

网络是否能ping通,ping下其他ip
[root@l-callcenter-kafka-server1.mgt.prod.aws.dm lizhitao1]# ping 10.0.34.251

 

看看机器是否有防火墙,端口被禁用,不能访问集群内其他机器,错误信息如下

 

解决办法:去掉防火墙规则

执行命令如下:
[root@l-callcenter-kafka-server2.mgt.prod.aws.dm lizhitao1]# iptables -F
验证是否成功
[root@l-callcenter-kafka-server2.mgt.prod.aws.dm lizhitao1]# telnet 10.0.34.151 9092

 

2.5 检查IP与主机匹配正确性

因为我司使用了多种厂商云主机,运维对各个云厂商分配了不同的子网段,网段配置错误是不能被其他主机访问的:
测试环境网段规则:阿里云IP规则为10.24.*.*.        亚马逊IP规则为10.1.*.*
错误配置示例如下:

正确配置如下:

三、RD工作重点

个人体会,在运维体系未自动化和完善前,我们先做一些工作,有同理心理解运维暂时困难,合作愉快推进就会更快些:
  • 提前2个星期申请,留足buffer时间
  • 多跑跑腿
  • 多做确认反馈、验证
  • 形成组合打好配合

posted on 2020-08-11 23:18  李志涛  阅读(320)  评论(0编辑  收藏  举报