项目运维基本工作

  在接手新项目的时候,需要短时间对项目有个了解,方便开展后续的工作,所以呢,对一个标准的软件项目来说,应该至少包含以下几个方面的内容:

项目基本信息

1.项目中所有服务器的配置信息。

2.项目的网络拓扑。

3.服务器登录说明。

4.业务密码

这些东西不一定有,如果没有的话需要做一下,完成后或完成收集后可以在阿里云上建立一个项目来保存,密码可以通kpass来实现管理。

实现后,进一步可以在项目上建立部署文档,与更新文档,比如建立一个update文档,将每次基于运维角度对项目的改动来进行记录,包括,修改了哪些文件,哪一天做的修改,都做了哪些修改等等,让一切的人为修改都可以有案可查,甚至项目中用到的一些特殊的软件包,和项目相关厂商的驻场技术人员等等,职务性质和级别,都可以建一个文件夹来保存下,以防人员流动带来的沟通成本。

这些都实现之后,可以针对项目中的风险问题,来进行一些风险应对sop,即,针对可能出现的问题,数据库宕机,服务器重启等等,进行风险演练,能够开机自动启动的,就配置开机启动,不能配置,需要手动执行的,要写文档来进行测试,确保问题发生之后根据文档一步步能够把服务恢复起来,能用shell完成的,就用shell改写命令,确保复制粘贴+回车能够完成。

具体的工作中,需要对生产有敬畏之心,做配置改动时先确认能够还原,并知道操作的后果,否则宁可不做,最后,对常态的繁杂工作,用脚本和程序来解决。

项目基本脚本

1.日常巡检脚本,巡检项包括但不限于,服务状态,进程状态,集群状态,备份状态,磁盘状态,重启记录。

2.业务服务检测脚本

3.数据备份脚本

4.常用复杂操作优化脚本

posted @ 2020-09-29 17:21  小雨淅淅o0  阅读(854)  评论(0编辑  收藏  举报