运维管理需要知道的知识
1. 怎么排班。总有人时间不够,怎么保证排班公平性。
chatGPT回答的:
-
轮班制度:采用轮班制度是一种常见的方式。可以制定一个轮班表,轮流安排每个人员的值班时间,确保每个人都有相对平等的机会参与值班。
-
值班频率:确定每个人员的值班频率是关键。可以计算每个人的平均值班次数,然后根据这个数据进行安排,确保每个人的值班机会大致相等。
-
值班时间段:在制定值班计划时,尽量让每个人的值班时间段分布均匀。例如,将每天分成多个时间段,轮流分配给不同的人员,避免某些人一直集中在某个时间段值班。
-
随机安排:使用随机算法或抽签的方式来安排值班也是一种公平的方法。确保每个人员的值班时间是随机选择的,减少可能的偏差。
-
值班反馈机制:建立一个反馈机制,允许每个人员提出对值班安排的意见或建议。这样可以根据他们的反馈来进行调整,更好地满足个人需求和公平性。
-
考虑个人情况:了解每个人员的个人情况,例如请假、休息日等,可以在制定值班计划时予以考虑,以便合理安排每个人的值班时间。
-
定期评估和调整:定期评估值班计划的效果,收集反馈并进行调整。根据实际情况进行优化,确保值班的公平性和可行性。
我们会给他三种可能性的排班,成本优先、效益优先(项目进度工期是否很赶)、员工满意度优先三种不同的方向,企业可以根据自身情况,去选择合适的方案排班。
成本优先: 灵活上班时间。
效益优先:项目进度很赶那就加大人力投入。工作量大小。
员工满意度: 加班多少、挣钱多少。
人员比例配置: 没结婚没对象的时间多的(稳定性) 结婚的需要钱的
迁移机房 灵活上班时间。
公平角度:
工作时间、工作量、工作难易度。
值班时间下班6点到10点。4个小时。
一线值班处理不了问题发给二线,二线处理后故障系统登记处理问题的时间,累积到值班时间4小时,就可以抵扣一天值班。二线工作难度较一线大,二线带一线可以获得成长。
2. redis-cluster底层原理是怎样的。
分片
1、哈希算法:采用固定节点数量,当某一节点宕机,缓存重建。
2、一致性哈希算法:当某一结点宕机,只有此节点数据受影响。会将压力压到数据库。
Redis Cluster使用的时hash slot算法通过采用固定节点数量和可配置映射节点,来避免取模的不灵活性和一致性哈希的部分影响。
Redis Cluster将所有数据按照hash slot算法分布到16384[0-16383]个哈希槽上面,哈希槽分布在各节点上,各节点维护自己的哈希槽。
3. 故障复盘会。
做会议记录。
1、故障原因分析,故障复现。
为什么出现原因
处理步骤什么时候一线接入,什么时候二线处理反馈时间。
2、 故障处理制定计划。
3、测试环境实施测试。
4、故障关联问题检查,评估结果,生产上线。
5、故障总结报告。
4. 故障报告制度。
1. 客服电话400电话报故障,故障报了后录入故障系统。
2、 运营和客户群报故障。
3、 业务部门故障报告。
4、 一线运维处理。
5. 一线处理不了转二线,二线转开发。
5. 应急保障制度,故障等级划分。
从五大维度进行评估:受影响业务功能(是否核心业务)、影响范围()、影响量级、影响时长和受影响业务个数,
保障:维度时间、安全、服务范围。
一级故障 多主机服务器宕机、服务器入侵。 全员参与。
二级故障 二线参与。核心业务故障,核心服务不可用,二线参与。
三级故障 一线参与。普通故障,单节点,普通告警,一线处理。
6. 告警指标范围。
cpu 80% 1分钟
内存 80% 1分钟
CPU占用率监控告警过载阈值是90%,监控告警恢复阈值是75%,过载检测周期是1分钟。
磁盘65%
7、 你们公司的网络拓扑是什么。
IDS 入侵检测
||
外网---->外网防火墙---》核心路由 ====》服务器区防火墙====》服务器区核心交换===分出来两个机房的交换机。
||
办公核心交换机
||
分交换机
8. 公司服务器型号 网络交换机型号是什么 几台。
DELLR730
华为华为高性能微型服务器有多种型号,包括华为RH1288 V3、华为RH2288 V3、华为RH5885 V3、华为RH8100 V3、华为RH8100H V3、华为RH2288H V3、华为RH1288H V3、华为RH2288H V3A和华为RH2488 V3。
服务器 8和16线程 2颗
16核 32线程
30到40个左右
18核36线程*2 256G内存
36核 256
64核 256G
256/8=32个左右
64核/2核=32个左右
9. k8s集群pod资源配置是多少。
服务器是64核256G,pod资源配置从1核2G到2核4G到,8核32G都有。2核4G,和4核8G比较多。
打卡4核8G,10个原来4个。
高峰期并发有个10万左右。用户一百万左右教师,教普通话。
前端nginx 8台nginx。打卡 。点名核心组件4核8G,10个POD。普通业务3个到6个。
资源配置分类很多,
1核2G
2核 4G,和4核8G
10、 oracle
几个要点:
1、oracle授权(也就是购买方式)有两种,一是按用户数,二是按cpu;
2、按用户数是指连接到oracle的连接数量(包括自然人的连接或机器的连接),但是,现在一般都是B/S的web或者手机端应用,很难算得清多少用户,所以用户数就按最大的并发数来算我觉得就OK了。需要注意的是:这里不是说我只通过一个中间件服务器来连oracle,把连接池调成100,这样就算一个用户,oracle没这么傻!
3、按cpu的话就是无限用户了,如果一个cpu多核的话,那就算多个cpu,但是并不是1核=1cpu,核比cpu便宜点,具体要看是什么牌子的cpu,计算方法看官方;
5、最便宜的5users的是1万元左右;最便宜的1cpu大概是20万元;
6、购买了,安装好了后,我想换服务器,要重新付钱吗?按用户数的肯定不要,按cpu的就要看情况了;
7、一般oracle的东西都是很贵的,所以基本都是有折扣的,特别如果你是大客户的话。像我公司,一买就买了15000users,注意,是1万5啊!按20万50用户,那15000不得6000万???没有折扣那是不可能的。
8、每个公司都必须有个开发环境,该环境肯定也得安装一个oracle,那么这种情况下需要买吗?我觉得这个就好比你在本机安装个来学习一样,又不是在生产环境商用,你懂的。
10、这种授权还有期限,可以购买1年、2年、N年等。
11 、ITSM 的关键用途
以下是企业最常使用的一些 ITSM 的核心实践:
事故管理:从 ITSM 角度讲,事故是指服务的意外停运或中断。 事故管理将定义事故的响应流程,目标是恢复服务并将用户和企业受到的影响最小化。
应急故障处理流程。
问题管理:此流程不仅识别并解决事故的根本原因,也识别并解决引发该原因的因素,并确定消除该事故的最佳方法。
问题复盘===》
问题追踪===》
变更管理:在 IT 中,变更十分常见。 变更管理(也称为变更支持)是指建立流程和实践,以将关键系统变更可能导致的 IT 服务中断、合规性问题及其他风险最小化。
变更管理系统===》。
资产和配置管理:定义了用于授权、监视和记录交付服务所使用的软件和硬件资产(物理和虚拟服务器、操作系统、笔记本电脑和移动设备)配置的流程。 配置管理数据库 (CMDB) 是一个重要的资产和配置管理工具,可用作所有 IT 资产及其相互关系的中央存储库。
资产配置和管理系统CMDB。
服务请求管理(资源权限管理系统):涉及用于处理来自个人用户或企业部门的新服务请求的流程。 此流程可能上至员工请求新笔记本,下到合作伙伴请求访问门户网站,或部门对软件即服务 (SaaS) 应用程序中数个新“位置”的请求。 服务请求管理中工单工作流程和“自助”能力的自动化程度越高,组织可获得的潜在利益就越大。
服务目录:允许用户自助使用 IT 服务的菜单或门户网站。
知识管理:在整个组织和/或扩展企业(包括客户和合作伙伴)中生成和共享 IT 服务相关知识的实践。 持续更新的可搜索自助知识库通常是完成这种实践的核心工具。
服务级别管理:商定并达到不同用户群体需要或期望的服务级别,或在未达到这些级别时“补偿”用户的实践。 一般而言,商定的服务级别都记录在服务级别协议 (SLA)。
IT 服务台:在 ITSM 中,IT 服务台是标准服务台的延续,也是处理和管理所有事故、问题和请求的单一联络点 (SPOC)。 它还是 ITSM 的基础,所有事故报告、问题报告和服务请求都始于此处,用户可从此处跟踪进度。 此服务台将处理与 ITSM 相关的软件许可、服务提供商和第三方合同。 在许多情况下,此服务台将运营和维护与 ITSM 相关的自助门户网站和知识库。
在itop中文网(http://www.itop.net.cn/)对iTOP的说明为“基于WEB的遵循ITIL的开源IT运维管理软件“,其具有免费开源、支持中文、支持基于WEB的访问、基于ITIL最佳实践、安装配置简单、使用简单的特点,而其主要的功能包括服务管理、变更管理、问题管理、服务台、配置管理、事件管理等。因此对于一般公司而言这是一个非常不错的选择,笔者计划在CENTOS7.6上安装iTOP软件,测试无问题后将虚拟机导出为OVF格式,再导入到其他的环境中使用,本文主要分享笔者在安装iTOP的过程及在虚拟机导出导入的过程中遇到的相关问题。
12 、SLA 服务提供商和客户之间的协议,服务规范。
根据 ITIL 4,SLA 是“服务提供商和客户之间的协议,用于确定所需的服务和预期的服务水平。”这些协议可以是正式的也可以是非正式的。
创建SLA所需要的元素。
作为服务提供商和客户之间的协议,SLA 需要记录所提供服务的范围和级别。为了有效地记录协议条款,SLA 通常由以下元素组合而成:
服务描述:协议、参与方和提供的服务的摘要。
服务质量:服务标准的详细信息,服务标准。
服务的响应性:服务交付速度的详细信息
未能满足约定条款的处罚:对不同程度的未能满足协议实施的处罚的详细信息
绩效衡量:需要衡量的指标列表,包括如何衡量它们
取消条件:取消SLA条款的条件详情
SLA 不必包含以上所有元素。这些元素的组合由SLA的类型决定。