aiops相关理论
AIOps概述
智能运维的理想状态就是把运维工作的三大部分:监控、管理和故障定位,利用一些机器学习算法的方法把它们有机结合起来。
AIOps平台包括数据湖,即存储采集数据,还有自动化系统、记录系统、交互系统、监控生态圈。
AIOps平台主要通过整合分析IT基础设施、APM、NPM、日志、数字化体验监测数据,来提升IT运维流程的效率。
AIOps平台能力的ROI多是基于平均故障接手时间(MTTA)和平均故障修复(MTTR)时间这两个指标的降低进行评估的。
AIOps场景
AIOPS场景很多,诸如异常检测、根因分析、故障自愈、容量预测等方面。根据平台的实际场景和业界AIOPS的实践经验,AIOPS将划分为三个场景:成本、效率和稳定性。针对成本来说,利用AI算法节省资源、智能调度,提高资源利用率的手段来节省资源;针对效率方面来说,利用AI算法主动发现问题、分析问题和解决问题,真正节省人力,提高效率。
AIOps能力
AIOps智能运维平台需要提供如下能力:
提供独立、开放的历史/实时数据采集、算法分析平台,整合IT数据和业务指标数据;
提供告警消噪(包括告警抑制、告警收敛等),消除误报或冗余事件;
提供跨系统追踪和关联分析,有效进行故障的根因分析;
设定动态基线捕获超出静态阈值的异常,实现单/多指标异常检测;
根据机器学习结果,预测未来事件,防止潜在的故障;
直接或通过集成启动解决问题的动作;
AIOps的基础
只有当工程(自动化、标准化)的水平达到一定高度后,才有望向智能化方向发展。以下给出的几种简单方法和技术,既能在异构系统中建立某种关联,为智能化提供一定的支持,又不要求开发人员改变技术栈或开发框架。
日志标准化:日志包含所约定的内容、格式,能标识自己的业务线、服务层级等。
全链路追踪:TraceID或者RequestID应该能从发起方透传到后端,标识唯一请求。
SLA规范化:采用统一的SLA约定,比如都用“响应时间”来约定性能指标,用“慢速比”来衡量系统健康度。
目前AIOps在IT运维领域实践的几个特点:
(1) 机器学习算法落地场景首推异常指标识别。因为工程化成本低,较容易产生效果。一两个核心开发人员即可。而且一旦成功,运维人员能获得最直接的收益。
(2) 从异常指标出发,衍生到异常追溯原因的各类场景。当识别出了异常,自然希望得到答案。例如在根因定位上,使用到了交易链路,所不同的是,有依靠人工管理标注完成,也有使用了算法结合消息总线的日志自动产生。所以,从纯粹数据层面的机器学习逐渐过渡到逻辑层面的机器学习。
(3) 算法结合规则才能达到实际生产运维期望的效果。算法不能解决所有问题。如果要更好的解决实际运维场景的问题,算法结合规则或专家经验才是宝贵的AIOps落地经验。
(4) 标准化、数据仓库式的运维数据是基础,大量运维格式化基础数据是机器学习的先决条件。所以,从组织架构到运维工具都应尽量做到集中化管理。
(5) 类似容量预测或事件预测等类似预测类的场景将是AIOps的下一个探索方向,主动发现与预测将是IT运维未来需要解决的问题。IT技术架构从“IOE架构”逐步走向了“互联网架构”;运维体系从ITIL走向DevOps;运维平台从自动化走向了AIOps;运维核心从关注平台走向数据资产。智能化以及数据化是未来IT运维的总体趋势。
AIOPS的能力框架
AIOps平台能力体系
AIOps 常见应用场景
按照时间来分
AIOPS实施的关键技术
1.数据采集(硬件,业务指标等)
2.数据预处理(特征工程)
3.数据可视化
4.数据存储(数据仓库,Hadoop分布式存储)
5.智能算法
数据采集
性能数据,性能数据 cpu性能,网络消耗,硬盘数据
用户数据:流量,错误率,访问情况,操作信息等个性化信息
运维事件信息,新程序上线扩容,配置更新,软件更新
数据处理
数据字段提取:通过正则解析,KV 解析,分隔符解析等解析方式提取字段
规范化数据格式:对字段值类型重定义和格式转换
数据字段内容替换:基于业务规则替换数据字段内容,比如必要的数据脱敏过程,同时可实现无效数据、缺失数据的替换处理
时间规范化:对各类运维数据中的时间字段进行格式统一转换
数据可视化
数据可视化:快速看到想要的信息,辅助快速分析问题解决问题
要做数据可视化先建立数据关联:
产品 服务层级关联关系
服务模块之间关联关系
运维事件与指标数据关联关系
指标数据与分维度指标数据关联关系
总体指标数据与分维度指标数据关联关系