一文了解AIOps的含义、特点与功用
1. AIOps定义
AIOps是智能运维(Artificial Intelligence forITOperations)的英文缩写。
当今,专业厂商根据自身理解和商业目的,分别给出了各具特色的AIOps定义。
主要关键字:IT运维、人工智能 (AI)、机器学习(ML)、自然语言处理(NLP)、大数据、数据分析、运营效率等。
以下是来自Elastic、IBM、Amazon、RedHat和华为的信息。
### Elastic
AIOps结合大数据和 Machine Learning,将包括异常检测、事件关联以及运营数据采集和处理在内的IT流程实现自动化。
借助AIOps,团队能够大幅减少大规模检测、了解、调查和解决事件所需的时间和精力。
进而,在故障排查期间节省时间便可让IT团队将更多精力投入到更有价值的任务和项目上。
### IBM
AIOps是指应用人工智能 (AI) 技术,例如自然语言处理和机器学习模型,自动执行和简化运营工作流程。
具体而言,智能运维AIOps使用大数据、分析技术和机器学习能力执行以下操作:
- 收集并汇总由多个IT基础架构组件、应用需求与性能监视工具以及服务工单系统持续生成的海量数据
- 智能筛选,从"噪声"中确定"信号",识别与系统性能和可用性问题相关的重要事件和模式。
- 诊断根本原因,并将其报告给IT和DevOps团队,以便他们快速做出响应和采取补救措施,或在某些情况下无需人工干预,可自动解决问题。
- 通过将多个单独的手动IT运营工具替换为单一的智能自动化IT运营平台,智能运维AIOps使IT运营团队能够更快地作出响应,甚至主动处理慢速和中断事件,从而大幅减少工作量。
智能运维AIOps可以缩小下面两大对立面之间的差距:
一方面是日益多样化、动态且难以监控的IT环境,另一方面是用户对应用程序性能和可用性几乎或根本无中断的期望。
大多数专家都认为智能运维AIOps是IT运营管理的未来形式,而且随着企业日益关注数字化转型计划,这种需求会只增不减。
### Amazon
AIOps用于IT运维的人工智能(AIOps)是指使用人工智能(AI)技术维护IT基础设施的过程。
可以自动执行关键运维任务,例如性能监控、工作负载调度和数据备份。
AIOps技术使用现代机器学习(ML)、自然语言处理(NLP)和其他高级AI 方法来提高IT运营效率。
AIOps技术可以收集和分析许多不同来源的数据,为IT运维提供主动、个性化和实时的见解。
### RedHat
AIOps是用于IT运维的人工智能。
AIOps既是指一种IT运维方法,也是一种集成式软件系统,使用数据科学来增强人工解决问题和通过系统解决问题的能力。
AIOps将大数据与人工智能或机器学习相结合,以增强或部分取代广泛的IT运维流程和任务。
### 华为
AIOps是指利用人工智能(AI)等技术,精准地管控和分析IT系统中的海量运维数据,并通过自动化、智能化的方式来优化运维流程、提高运维效率和运维质量。
AIOps的特点是利用机器学习、深度学习等AI技术,对运维类数据进行分析和处理,从而对运维目标进行健康度评估、智能定位和异常分析,甚至发现潜在问题,提升目标系统的可用性和稳定性。
AIOps将会成为IT运维的重要发展方向,帮助企业更加高效、智能地实现数字化转型。
2. AIOps的运作与特点
2.1 - 集成与适配
AIOps工具集与在用的工具和系统进行全面集成和适配,是收集和分析大量原始可观测性数据的必要基础。
通过部署大数据、机器学习和自动化等组件,可以实时提取、聚合和分析大量信息。
2.2 - 数据汇集
通常使用可扩展的数据平台从复杂的系统环境中汇集所有类型的IT数据:日志文件、配置数据、指标、事件和告警等。
- 基础架构和网络:网元信息、互联关系、网络流量等
- 设备系统:日志、状态等
- 应用程序:应用日志、业务数据、需求数据、痕迹信息
- 指标和性能:正常运行时间、停机时间、服务级别指标、并发数、响应时间等
- 实时事件:错误、身份验证尝试、防火墙警报、工单等
- 历史数据:性能和事件数据
- ......
2.3 - 观察与监测
支持和提高可观测性、APM 等功能,使用服务依赖关系映射功能和分布式跟踪,在基础层面上监测多个不同系统的运行状态。
提供直观的可视化视图来查看基础架构、流程、事务流和依赖关系,能够从宏观角度更好地了解系统的运行状态。
2.4 - 整合分析
使用可跟踪的指标定义运维健康状况,然后将其作为AIOps系统的基线。
梳理IT运营数据,识别重要告警,将信号(即重要的异常事件警报)与噪声(其他数据)分离。
可以识别业务模式并将日志和性能数据中的事件关联起来,感知应用程序和基础架构级别的状态,分析和确定问题的原因,并提出问题解决的建议。
2.5 - 自动应对与人工参与
通过AIOps简化了诊断和评估工作,减少对传统IT指标和提示的依赖,部分场景下,AIOps可以自动进行响应和处理。
自动将警报和建议的解决方案传送给相应的IT团队,可以根据问题的性质和解决方案来组建响应团队,甚至是在用户意识到问题之前实时解决问题。
专业人员根据机器学习算法生成的分析结果创建自动响应,部署更智能的系统,从历史事件中吸取经验教训,并使用自动化脚本预先防范类似的问题。
因此,对于复杂和全新的问题场景,仍然需要专业人员的参与,AIOps可以辅助进行验证和确认问题解决方案。
2.6 技术特点
以下内容来自IBM:
根据Gartner的定义,AIOps产品或平台主要包括以下5类技术要素:
- 数据源:来自各IT基础设施的底层记录数据。
- 大数据平台:用于处理、分析静态和动态实时数据。
- 计算与分析:数据预处理、数据标准化等清洗工作。
- 算法:用于计算和分析,以产生IT运维场景所需的结果。
- 机器学习:包括无监督、有监督和半监督学习。
从整体上看,AIOps的关键能力:基于AI的核心算法、无缝地与IT系统集成、多元数据的整合。
其中,算法是AIOps的核心能力。
当前AIOps算法主要集中在异常检测、预测和根因分析,主要技术趋势如下:
- 异常检测技术:传统领域以有监督算法为主,AIOps领域以有监督和无监督算法结合为主。
- 预测技术:从传统机器学习发展到以LSTM(Long Short Term Memory,长短期记忆)为代表的深度学习。
- 根因分析技术:传统采用关联规则和无监督算法,应用知识图谱算法进行根因分析是新趋势。
3. AIOps的功用
在人工运维阶段,主要依赖运维专家的工作经验来进行故障分析、定位和排障,整体运维效率不高,且需较长时间的积累。
在自动化运维阶段,运维团队使用脚本、工具等方式执行运维任务,运维效率有了明显提升,但运维团队需要掌握自动化运维工具的开发和迭代,学习难度高。
当今大规模IT系统的运维形势与需求
- IT系统复杂度和规模不断增长,各种新技术和新架构层出不穷,各类数据爆炸式增长
- 面对海量数据、不停变化的系统状态、繁多的业务应用和不同的配置参数
在AIOps阶段,通过BigData、ML、AI等技术组件,自动地学习和分析海量运维数据,给出运维决策建议,可增强和部分取代现有运维流程和操作。
- 缩短故障排查时间:提供事件关联功能,进行根本原因分析,提高服务可用性
- 打破数据孤岛,提供通用框架聚合多个数据源,提升整体态势感知能力:跨系统、跨团队
- 自动对事件做出个性化响应:发现和过滤误报,让团队人员更关注于处理关键任务
- 更积极主动解决IT运营问题:预测可能会出现问题的场景和运维趋势
- 更妥善地执行IT策略来支持业务决策:不断从数据流中学习和迭代
4. 场景和用例
4.1 功能场景
### 应用程序性能监控(APM)
AIOps作为云基础架构、虚拟化和存储系统的监控工具,大规模收集和编译相关指标,能够报告使用情况、可用性和响应时间等指标。
利用事件关联功能,整合与汇总信息,帮助最终用户更有效地使用信息。
### 根本原因分析
快速处理大数据,并在多个可能的原因之间建立关联,有效地帮助确定事件的根本原因,而不仅仅是表面症状或提醒。
避免无关和不必要的工作,快速解决核心问题,确定保护措施以防止将来出现类似问题。
### 异常检测
AIOps工具可以梳理大量历史数据,发现数据集中的非典型数据点,作为感知和预测问题事件的信号
AIOps实时评估和预测偏离监控数据标准分布的异常值,快速检测数据偏差并加快执行纠正措施。
因此,借助AIOps可以减少管理事件期间对系统提醒的依赖,还可以设置基于规则的策略以自动执行补救措施。
### 云自动化和优化
AIOps可以提供工作负载的透明度、可观测性和自动化,按需预置和扩展计算资源。
通过直观呈现环境中的相互依赖关系,有助于降低云迁移和混合多云环境(私有云、公有云、多个提供商)的运营风险
### 应用程序开发支持
AIOps工具可以自动地提前进行代码审查,应用编程最佳实践,以及在开发阶段的早期检测错误。
支持DevOps所需的基础架构可视性和自动化功能,而无需完成大量额外的管理工作。
4.2人员用例
AIOps可以帮助团队检测和应对潜在问题,只是让机器完成杂务,而方向盘仍由专业人员操控。
工程师需要具备理解、整合或编写底层AI 脚本能力,能够将事件关联和警报引擎转化为执行引擎。
- 应用站点可靠性工程师(SRE):定义黄金信号(延迟、错误率、流量和饱和)
- 开发人员:使用AIOps分析来执行根本原因分析(RCA)
- 业务负责人:使用AIOps来监控 SRE 所用的黄金信号,从最终用户角度了解应用的性能
- 运维人员:使用AIOps来监控混合云、多云和基于微服务的IT环境,监控状态,简化运维
5. 工程化落地路线
5.1 时序指标
- 以监控系统为主,结合监控系统的日常工作特性和大量时序数据
- 将单指标和多指标的时序预测、异常检测、关联分析等以时序指标分析为主的方法整合进系统
- 让监控系统能够自适应地告警,通过异常检测触发运维动作,通过指标关联分析辅助决策来缩短解决故障定位的时间
5.2 事件分析
- 以非结构化数据分析为主(日志分析、告警等)
- 关键技术包括告警事件降噪、事件发现、告警事件抑制、日志聚类、事件解决方案推荐等
- 认为一切的运维数据最终都会反映成运维事件,以运维事件的角度去分析
5.3 知识增强
- 基于知识图谱和知识库来提升运维知识的利用率
- 通过使用知识检索、知识推理、命名实体识别等技术,结合运维知识库和基础数据形成运维机器人,在原有的知识库基础上赋予AI的能力
- 认为运维中起决定作用的是知识,通过整理运维知识,形成运维知识图谱
5.4 AI平台
- 认为AI能力应该沉淀在AI平台上,通过AI平台赋能已有应用的方式,不应该直接强绑定在运维工具上
- 让运维系统和AI系统在平台层面上进行隔离,通过API的方式互相整合
6. 概念的区分与联系
6.1 AIOps与DevOps
DevOps是一组过程、方法与系统的统称,重视沟通合作的文化、运动或惯例,代表了组织文化的转变。
用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。
精简了开发和运营流程,使得软件生命周期中的构建、测试、发布环节能够更加地快捷、频繁和可靠。
技术上主要通过采用持续集成和持续部署 (CI/CD) 的方式来简化工作,以信息共享弥合开发和支持工作流程之间的差距。
AIOps是一种使用人工智能技术来支持现有IT流程的方法。
AIOps结合了AI 和ML技术来监测和管理各个系统,实现运维过程的智能化,以便更快地解决问题。
DevOps和AIOps都是用于优化软件开发和运维的方法论,都凸显了自动化的益处:消除耗时的人工作业。
DevOps侧重于优化开发和运维之间的协作和自动化,注重软件交付流程的优化,旨在加快软件交付的速度和质量,强调团队合作和持续集成。
AIOps侧重于利用AI和ML等技术来优化运维过程,通过数据分析和推理预测来实现智能化的运维管理,强调实时的故障检测、自动化和智能化的故障处理和资源优化。
通过将AIOps和DevOps结合使用,可让团队查看整个系统的运行情况,而不是专注于特定工具和基础架构层。
- 持续评估编码质量并缩短软件交付时间
- 在开发和运维过程中通过将数据分析任务进行自动化来为DevOps流程提供补充
- 有助于更明智的决策,并主动提醒注意任何问题
6.2 AIOps与SRE
站点可靠性工程(SRE)是一种工程团队可用于自动化系统操作和使用软件工具执行检查的方法。
SRE 团队不依赖手动方法,而是通过自动检测和解决问题来改善软件可靠性和客户体验。
AIOps使用业务运营的海量数据和基于机器学习的预测性见解来帮助SRE工程师缩短事件解决时间。
6.3 AIOps与MLOps
MLOps框架可帮助软件团队将机器学习模型集成到数字产品中,涉及模型选择和数据准备,包括在生产环境中训练、评估和部署机器学习应用程序的过程。
MLOps的重点是在生产环境中部署、维护和监测模型。这可能包括纳入反馈输入,以重新部署经改进的模型。
AIOps使用ML来提高IT运营的效率,而MLOps则用于实现ML模型部署的标准化。
6.4 AIOps与DataOps
借助DataOps计划,组织可优化商业智能应用程序的数据使用情况。
DataOps涉及设置数据管道,数据工程师可以使用这些管道从不同域提取、转换和传输数据,以此支持业务运营。
AIOps使用DataOps提供的信息来检测、分析和解决事件。
7. 总结
7.1 AIOps的优势
AIOps面向IT运维,是一个效能性的技术栈和工具集,而非生产性的。
AIOps覆盖了“数据采集 > 数据分析 > 运维决策 > 处理执行 > 异常预测”的运维关键链条,可以帮助运维人员快速发现、精准处理IT系统的异常事件。
- 更广泛的信息聚合:多信息源、多种类信息
- 更强的分析:BigData、ML、NLP、AI
- 更全面的整体维度:对IT环境的全方位了解,跨越系统、部门和团队
- 更快的反应:缩短MTTR(Mean Time To Repair,平均修复时间)
- 更主动的行为:主动性运维
- 更准确的预测:预测性运维
- 更易理解的展现:统一的信息出口、针对性的信息过滤
7.2 AIOps的挑战
没有单一的AIOps工具、AIOps平台或AIOps产品。
因为每个企业和机构的开发和生产环境都有自己的特点和独特之处,构建的任何AIOps解决方案必须能够整合、分析这些各种因素并进行处理。
独立开发和落地能够带来显著效能提升的可用AIOps,需要建立在一定规模和标准的基础之上,并且需要巨大的专业性投入。
- 专业知识:广泛的数据科学专业知识
- 基础架构:标准化的平台和功能,针对特定基础架构训练AIOps
- 价值实现时间:设计、实施、部署和管理的难度大,价值回报周期长
- 数据:AIOps的结果质量取决于数据源的质量,对运维数据的数量、质量和一致性的要求高
- 集体协议:为系统健康奠定基础并制定标准运维目标需要多方的广泛支持和共识
- 环境与范围:涉及因素多,环境变化快,难以建立基线
- 失败率:AI项目失败率非常高,实现效益难度大
8. 参考信息
- 什么是AIOps?https://www.elastic.co/cn/what-is/aiops
- 什么是AIOps? https://aws.amazon.com/cn/what-is/aiops/
- 什么是AIOps? https://www.redhat.com/zh/topics/ai/what-is-aiops
- 什么是智能运维AIOps(智能运维平台)?https://www.ibm.com/cn-zh/topics/aiops
- 什么是AIOps?https://info.support.huawei.com/info-finder/encyclopedia/zh/AIOps.html
- AIOps极简权威指南 https://zhuanlan.zhihu.com/p/63981459
- https://www.purestorage.com/knowledge/what-is-aiops.html
行动是绝望的解药!
欢迎转载和引用,但请在明显处保留原文链接和原作者信息!
本博客内容多为个人工作与学习的记录,少数内容来自于网络并略有修改,已尽力标明原文链接和转载说明。如有冒犯,即刻删除!
以所舍,求所得,有所获,方所成。