TS - 运维问题管理

问题管理

问题的报告、受理、分派、督促、反馈、解决、跟踪、总结等工作过程

面对的问题

  • 疲于解决重复性事件和问题
  • 缺乏运维自动化:跟踪效率低,问题流转过程长;
  • 流程性工作繁重:缺乏沉淀,难以形成问题库和深度挖掘分析底层原因和问题间关系
  • 难以把控运维全局:不利于工作总结和持续优化

应用问题的一些基本定义

应用问题:

  • 对应用系统在生产环境中发生的技术业务事件进行深入研究,明确事件产生的根源。

应用问题管理:

  • 对问题的提炼、分析、解决和总结等活动进行管理的过程

应用问题管理的目标:

  • 对应用系统运维过程中的问题进行调查分析,找到其根本原因和解决方案并实施,将应用系统错误对业务产生的影响降到最低,防止其再次发生,提升系统的稳定性。

应用问题的来源:

  • 包括但不限于各渠道反映的生产系统异常或隐患事件,经分析认定为应用问题的。
  • 对于非技术性问题、业务需求,与应用系统无关的运行问题等情况,不属于应用问题范畴。

应用问题的分类

从问题来源的角度可划分为事件问题与一般问题

  • 事件问题:直接来源于生产运行事件的应用问题
  • 一般问题:除直接来源于生产运行事件之外的问题

从问题成因的角度(可动态调整)可分为:

  • 运行问题:资源冲突、资源不足、阈值超限、系统环境、应用容量、配置偏差、通信问题、清理机制等
  • 程序问题:逻辑失效、容错性低、死循环、控制不严、SQL执行效率低、内存使用不合理等
  • 数据问题:格式错误、设计不合理(字段类型、主键、索引、分区等)、上下游系统文件数据格式不匹配、脏数据等
  • 设计问题:系统架构、用户权限、关联系统等
  • 变更问题:配置参数、脚本内容、流程逻辑、关联影响、步骤缺失、操作异步等
  • 第三方问题:软件版本、流程失效、兼容故障、违规处理等
  • 业务问题:业务数据维护不及时、与业务规则不同步、业务功能不完善等
  • 测试问题:测试不完备等
  • 其他问题:偶发问题、原因不明等

问题管理的应用成效

为实施主动式运维提供信息承载和管理的平台。

  • 信息互联互通
  • 流程集中管理
  • 主动归纳挖掘
一、实现问题管理流程电子化
通过问题管理平台的搭建,解决手工处理 问题管理工作时人工跟踪过程复杂、信息碎片化现象严重的问题,
全面记录问题处理信息及跟踪工作流,提升问题流转效率,沉淀有价值的应用问题数据。 

二、规范问题管理过程
规范问题报告、问题跟踪反馈等工作过程,
提高应用问题报告、解决、反馈的时效性,
使问题报告及反馈信息要素更加准确。 

三、有效控制问题数量
提高问题定位率及解决率
缩短问题平均处理周期

四、形成问题库,为主动运维服务
系统记录、跟踪和管理应用系统日常运维中各渠道出现的应用问题及解决过程,
在大量数据积累的基础上形成问题库并转换为知识库,作为技术资源供开发、运维过程中参考,
及时分析和判断系统运行风险,在事件发生之前发现和解决有关问题,为实施主动运维提供信息承载和管理的平台。 

事件问题根源分析报告

  • 事件问题发生时间
  • 事件现象
  • 问题分析和处理过程
  • 原因定位时间
  • 问题影响情况
  • 问题根源
  • 解决方案
  • 问题解决时间
  • 测试改进意见
  • 后续整改落实情况
  • 等等
posted @ 2024-07-26 10:40  Anliven  阅读(22)  评论(0编辑  收藏  举报