运维管理需要知道的知识

1. 怎么排班。总有人时间不够,怎么保证排班公平性。

chatGPT回答的:

  1. 轮班制度:采用轮班制度是一种常见的方式。可以制定一个轮班表,轮流安排每个人员的值班时间,确保每个人都有相对平等的机会参与值班。

  2. 值班频率:确定每个人员的值班频率是关键。可以计算每个人的平均值班次数,然后根据这个数据进行安排,确保每个人的值班机会大致相等。

  3. 值班时间段:在制定值班计划时,尽量让每个人的值班时间段分布均匀。例如,将每天分成多个时间段,轮流分配给不同的人员,避免某些人一直集中在某个时间段值班。

  4. 随机安排:使用随机算法或抽签的方式来安排值班也是一种公平的方法。确保每个人员的值班时间是随机选择的,减少可能的偏差。

  5. 值班反馈机制:建立一个反馈机制,允许每个人员提出对值班安排的意见或建议。这样可以根据他们的反馈来进行调整,更好地满足个人需求和公平性。

  6. 考虑个人情况:了解每个人员的个人情况,例如请假、休息日等,可以在制定值班计划时予以考虑,以便合理安排每个人的值班时间。

  7. 定期评估和调整:定期评估值班计划的效果,收集反馈并进行调整。根据实际情况进行优化,确保值班的公平性和可行性。

 我们会给他三种可能性的排班,成本优先、效益优先(项目进度工期是否很赶)、员工满意度优先三种不同的方向,企业可以根据自身情况,去选择合适的方案排班。

 成本优先: 灵活上班时间。

效益优先:项目进度很赶那就加大人力投入。工作量大小。

员工满意度: 加班多少、挣钱多少。

人员比例配置: 没结婚没对象的时间多的(稳定性)     结婚的需要钱的     

迁移机房    灵活上班时间。

 公平角度:

工作时间、工作量、工作难易度。

值班时间下班6点到10点。4个小时。

一线值班处理不了问题发给二线,二线处理后故障系统登记处理问题的时间,累积到值班时间4小时,就可以抵扣一天值班。二线工作难度较一线大,二线带一线可以获得成长。

 

2. redis-cluster底层原理是怎样的。

  分片

1、哈希算法:采用固定节点数量,当某一节点宕机,缓存重建。

2、一致性哈希算法:当某一结点宕机,只有此节点数据受影响。会将压力压到数据库。

  Redis Cluster使用的时hash slot算法通过采用固定节点数量和可配置映射节点,来避免取模的不灵活性和一致性哈希的部分影响。

  Redis Cluster将所有数据按照hash slot算法分布到16384[0-16383]个哈希槽上面,哈希槽分布在各节点上,各节点维护自己的哈希槽。

 

3. 故障复盘会。

做会议记录。

1、故障原因分析,故障复现。

为什么出现原因

处理步骤什么时候一线接入,什么时候二线处理反馈时间。

2、 故障处理制定计划。

3、测试环境实施测试。

4、故障关联问题检查,评估结果,生产上线。

5、故障总结报告。 

 

4. 故障报告制度。

 1. 客服电话400电话报故障,故障报了后录入故障系统。

 2、 运营和客户群报故障。

3、 业务部门故障报告。

4、 一线运维处理。

5. 一线处理不了转二线,二线转开发。

 

5.  应急保障制度,故障等级划分。

从五大维度进行评估:受影响业务功能(是否核心业务)、影响范围()、影响量级、影响时长和受影响业务个数,

保障:维度时间、安全、服务范围。

一级故障   多主机服务器宕机、服务器入侵。 全员参与。

二级故障  二线参与。核心业务故障,核心服务不可用,二线参与。

三级故障  一线参与。普通故障,单节点,普通告警,一线处理。

 

6.  告警指标范围。

cpu  80% 1分钟

内存 80% 1分钟

CPU占用率监控告警过载阈值是90%,监控告警恢复阈值是75%,过载检测周期是1分钟。

磁盘65%

 

7、 你们公司的网络拓扑是什么。

                                          IDS 入侵检测

                                           ||

外网---->外网防火墙---》核心路由 ====》服务器区防火墙====》服务器区核心交换===分出来两个机房的交换机。

                                             ||

                                        办公核心交换机

                                             ||

                                        分交换机         

 

 8. 公司服务器型号  网络交换机型号是什么 几台。

DELLR730  

华为华为高性能微型服务器有多种型号,包括华为RH1288 V3、华为RH2288 V3、华为RH5885 V3、华为RH8100 V3、华为RH8100H V3、华为RH2288H V3、华为RH1288H V3、华为RH2288H V3A和华为RH2488 V3。

服务器 8和16线程 2颗

16核 32线程

 

30到40个左右

18核36线程*2       256G内存

36核  256

64核 256G

256/8=32个左右

64核/2核=32个左右

 

9. k8s集群pod资源配置是多少。

服务器是64核256G,pod资源配置从1核2G到2核4G到,8核32G都有。2核4G,和4核8G比较多。

打卡4核8G,10个原来4个。

高峰期并发有个10万左右。用户一百万左右教师,教普通话。

前端nginx 8台nginx。打卡 。点名核心组件4核8G,10个POD。普通业务3个到6个。

资源配置分类很多,

1核2G 

2核 4G,和4核8G

 

10、 oracle

几个要点:

1、oracle授权(也就是购买方式)有两种,一是按用户数,二是按cpu;

2、按用户数是指连接到oracle的连接数量(包括自然人的连接或机器的连接),但是,现在一般都是B/S的web或者手机端应用,很难算得清多少用户,所以用户数就按最大的并发数来算我觉得就OK了。需要注意的是:这里不是说我只通过一个中间件服务器来连oracle,把连接池调成100,这样就算一个用户,oracle没这么傻!

3、按cpu的话就是无限用户了,如果一个cpu多核的话,那就算多个cpu,但是并不是1核=1cpu,核比cpu便宜点,具体要看是什么牌子的cpu,计算方法看官方;

5、最便宜的5users的是1万元左右;最便宜的1cpu大概是20万元;

6、购买了,安装好了后,我想换服务器,要重新付钱吗?按用户数的肯定不要,按cpu的就要看情况了;

7、一般oracle的东西都是很贵的,所以基本都是有折扣的,特别如果你是大客户的话。像我公司,一买就买了15000users,注意,是1万5啊!按20万50用户,那15000不得6000万???没有折扣那是不可能的。

8、每个公司都必须有个开发环境,该环境肯定也得安装一个oracle,那么这种情况下需要买吗?我觉得这个就好比你在本机安装个来学习一样,又不是在生产环境商用,你懂的。

10、这种授权还有期限,可以购买1年、2年、N年等。

 

11 、ITSM 的关键用途
以下是企业最常使用的一些 ITSM 的核心实践:

事故管理:从 ITSM 角度讲,事故是指服务的意外停运或中断。 事故管理将定义事故的响应流程,目标是恢复服务并将用户和企业受到的影响最小化。

应急故障处理流程。


问题管理:此流程不仅识别并解决事故的根本原因,也识别并解决引发该原因的因素,并确定消除该事故的最佳方法。

问题复盘===》

问题追踪===》


变更管理:在 IT 中,变更十分常见。 变更管理(也称为变更支持)是指建立流程和实践,以将关键系统变更可能导致的 IT 服务中断、合规性问题及其他风险最小化。

变更管理系统===》。


资产和配置管理:定义了用于授权、监视和记录交付服务所使用的软件和硬件资产(物理和虚拟服务器、操作系统、笔记本电脑和移动设备)配置的流程。 配置管理数据库 (CMDB) 是一个重要的资产和配置管理工具,可用作所有 IT 资产及其相互关系的中央存储库。

资产配置和管理系统CMDB。

 

服务请求管理(资源权限管理系统):涉及用于处理来自个人用户或企业部门的新服务请求的流程。 此流程可能上至员工请求新笔记本,下到合作伙伴请求访问门户网站,或部门对软件即服务 (SaaS) 应用程序中数个新“位置”的请求。 服务请求管理中工单工作流程和“自助”能力的自动化程度越高,组织可获得的潜在利益就越大。


服务目录:允许用户自助使用 IT 服务的菜单或门户网站。


知识管理:在整个组织和/或扩展企业(包括客户和合作伙伴)中生成和共享 IT 服务相关知识的实践。 持续更新的可搜索自助知识库通常是完成这种实践的核心工具。


服务级别管理:商定并达到不同用户群体需要或期望的服务级别,或在未达到这些级别时“补偿”用户的实践。 一般而言,商定的服务级别都记录在服务级别协议 (SLA)。


IT 服务台:在 ITSM 中,IT 服务台是标准服务台的延续,也是处理和管理所有事故、问题和请求的单一联络点 (SPOC)。 它还是 ITSM 的基础,所有事故报告、问题报告和服务请求都始于此处,用户可从此处跟踪进度。 此服务台将处理与 ITSM 相关的软件许可、服务提供商和第三方合同。 在许多情况下,此服务台将运营和维护与 ITSM 相关的自助门户网站和知识库。

在itop中文网(http://www.itop.net.cn/)对iTOP的说明为“基于WEB的遵循ITIL的开源IT运维管理软件“,其具有免费开源、支持中文、支持基于WEB的访问、基于ITIL最佳实践、安装配置简单、使用简单的特点,而其主要的功能包括服务管理、变更管理、问题管理、服务台、配置管理、事件管理等。因此对于一般公司而言这是一个非常不错的选择,笔者计划在CENTOS7.6上安装iTOP软件,测试无问题后将虚拟机导出为OVF格式,再导入到其他的环境中使用,本文主要分享笔者在安装iTOP的过程及在虚拟机导出导入的过程中遇到的相关问题。

 

12 、SLA  服务提供商和客户之间的协议,服务规范。

根据 ITIL 4,SLA 是“服务提供商和客户之间的协议,用于确定所需的服务和预期的服务水平。”这些协议可以是正式的也可以是非正式的。

创建SLA所需要的元素。

作为服务提供商和客户之间的协议,SLA 需要记录所提供服务的范围和级别。为了有效地记录协议条款,SLA 通常由以下元素组合而成:

服务描述:协议、参与方和提供的服务的摘要。

服务质量:服务标准的详细信息,服务标准。

服务的响应性:服务交付速度的详细信息

未能满足约定条款的处罚:对不同程度的未能满足协议实施的处罚的详细信息

绩效衡量:需要衡量的指标列表,包括如何衡量它们

取消条件:取消SLA条款的条件详情

SLA 不必包含以上所有元素。这些元素的组合由SLA的类型决定。

 

posted @ 2023-05-19 14:59  滴滴滴  阅读(220)  评论(0编辑  收藏  举报