学习 AIops 智能运维平台

AIOps(Artificial Intelligence for IT Operations ),即智能运维,是将人工智能的能力与运维相结合,通过机器学习的方法来提升运维效率。

在传统的自动化运维体系中,重复性运维工作的人力成本和效率问题得到了有效解决。但在复杂场景下的故障处理、变更管理、容量管理、服务资源过程中,仍需要人来掌控决策的过程,这阻碍了运维效率的进一步提升。而AI方法的引入,使得机器能够代替人来做出决策,从而让真正意义上的实现完全自动化成为了可能。

AIOps有两个主要组件:大数据和机器学习,AIOps使用机器学习来分析来自各种IT运维工具和设备的大数据,通过AIOps能够自动发现并实时响应问题。

AIOps用于增强和部分取代IT运维流程和任务,包括可用性和性能监控,事件关联和分析,IT服务管理和自动化,AIOps平台和解决方案运行的一般过程包括三个基本过程。
1. AIOps的三个基本过程。
 
数据管理
AIOps平台首先需要观察数据的性质及其行为,AIOps数据发现需要支持海量数据规模,其中分析速度都是关键,必须几乎实时地收集数据并且分析。成功的AIOps平台利用多种机制组合来收集来多环境的数据。环境可能包括一系列容器,虚拟机,网络和存储,公有云以及其他技术和体系结构。
服务管理
AIOps平台提供跨关键IT运维域的编排,如变更管理和事件管理,服务管理传统上是手工的,通常严重依赖于配置管理数据库,对于涉及频繁变更的环境,往往容易出错。AIOps平台提供分析和输入,使IT服务管理任务更加自动化和可靠。
自动化
自动化是AIOps的必杀技,使用机器学习实现关键IT运维的自动化是大多数组织的新挑战。机器学习的自动化技术正在逐渐成熟,组织可以使用它来完成简单或者复杂的工作。
2. AIOps的层次划分和能力
根据Gartner的定义,AIOps产品或平台应包含下图所示的层级:
 
AIOps应拥有以下能力:
数据提取
AIOps从各种来源收集各种类型的数据。这可能包括关于错误、日志、性能警报和工单数据。从最不同的数据源摄取数据的能力至关重要。
自动发现
IT环境,尤其是到了云环境,一直是一个动态的过程,企业需要自动发现的能力。AIOps能自动收集标识所有基础设施设备、正在运行的应用程序和的业务数据。
相关性关联
AIOps平台应该将数据以关联起来,确定基础设施、应用程序、业务之间的关系。
可视化展现
AIOps端到端关联过程完成后,需要可视化数据,可视化非常重要,可视化之后IT运维能快速查明问题并采取纠正措施。
自动化
自动化是AIOps的一个关键组成部分,因为它向用户交付了最终的ROI。通过自动化IT运维任务,可以减少运维成本,加速创新,降低MTTR,提高满意度。
预测
找到问题的根源是关键,但确定重复出现的事件及预测未来可能发生的事件更为关键。AIOps使用机器学习来确定时间序列中事件的模式,从而预期行为和阈值检测异常,并预测中断和性能问题。
3. 云使IT环境更复杂,使用AIOps只是时间问题

AIOps将基于自动化运维,将AI和运维很好地结合起来,这个过程需要三方面的知识:

  • 行业、业务领域知识,跟业务特点相关的知识经验积累,熟悉生产实践中的难题。

  • 运维领域知识,如指标监控、异常检测、故障发现、故障止损、成本优化、容量规划和性能调优等。

  • 算法、机器学习知识,把实际问题转化为算法问题,常用算法包括如聚类、决策树、卷积神经网络等。

AIOps具体的能力框架如下所示:

 随着云的普及,IT环境表现出三个特征:

越来越多的数据,复杂环境频繁的警报,大量重复工作,要求提升自动化水平,AIOps是解决这些问题的利器,使用AIOps只是时间问题。
AIOps能解决哪些问题
通过使用AIOps的解决方案,可以解决很多IT难题,也可以提高IT多方面的效率。
1. 加速DevOps
DevOps最重要的任务之一是构建发布部署流水线,通过AIOps,可以监视健康指标的部署并快速检测回滚。
2. 减少MTTD和更快的MTTR
通过使用智能算法和提升自动化水平,AIOps可以大幅降低平均检测时间(MTTD),让将平均修复时间(MTTR)更快。
3. 实时分析
AIOps平台通过对数据实时应用各种类型的算法,可以获得问题的实时分析和诊断以及操作建议。
4. 降低报警噪音
报警噪音一直是困难运维的难题,通过一些阀值配置,可以减少一些误报,但是不能从根本上解决问题,AIOps通过大数据分析和机器学习,不断完善算法,可以不断提高过滤警报噪音的水平,从而有效解决这个难题。
5. 故障原因分析及预测
AIOps通过海量的数据分析,可以帮助识别造成问题的根本原因,甚至根据历史数据预测将要发生的故障
6. 运维建议
AIOps基于实时数据和历史数据,可以提供运维建议。
7. 云费用分析及优化
随着云的大量使用,云费用的优化也越来越重要,通过收集相关的数据,使用AIOps数据分析和算法,可以分析云费用,并且更智能的给出优化方法。
8.智能驱动的网络
思科等网络厂商提出的基于意图的网络,实际上也可以理解成使用AIOps的方法,基于海量数据和算法,让网络配置更智能。
 
实施AIOps需要解决哪些挑战
根据Gartner最新的技术成熟度曲线,AIOps还处于技术诞生的促动期,实际在落地过程中面临许多挑战。
 
1. 数据量不足
对大型组织数据量可能不是问题,但中小型组织由于数据量不够,使得很难满足AIOps基本的数据样本需求,更别说在数据之上的数据分析和机器学习了。
2. 缺乏数据分析和算法技术和能力
AIOps要求分析并实时处理数据,对数据分析和算法能力要求比较高,本身这方面的技术就在飞速发展,组织要拥有这方面的能力和经验非常困难。
3. 缺乏相关的人才
目前大数据和AI的人才非常紧缺,AIOps要落地,要求相关人才不光要懂大数据和AI技术,还要熟悉运维场景,熟悉业务,这也是制约AIOps落地的一个原因。
那么,组织要尽快获得AIOps的好处,有没有更好办法?答案是可以选择一家服务商。直接利用服务商现成的产品和经验,即使没有足够的数据,没有相关的技术能力和人才,也能借助服务商,很快的具备AIOps的能力,获得使用AIOps的收益,ChinaMSP的 AIOps平台就可以很好的满足这样的需求。
 
ChinaMSP AIOps平台解析
ChinaMSP AIOps平台支持同时使用多个数据源、数据收集方法以及分析和展示技术,能够构建起智能化运维管控模型,识别业务中的问题,简化操作复杂度。目前该平台支持近百种插件,可以帮助用户在本身环境不进行更改的情况下,集成到平台,有效提高运维效率。
ChinaMSP AIOps平台与传统运维服务平台相比优势明显,比如在去除冗余报警这一项目上,AIOps 平台使用 Sigalisers机器学习算法,根据时间戳,语言或拓扑的相似性将警报聚集在一起,快速的定位目前的主要问题,而不会因为同一时间涌现出的大量告警而手忙脚乱。在实际测试中,通过使用ChinaMSP AIOps 平台,能将11K的报警数优化99.9%以上。
此外,因为ChinaMSP拥有丰富的云管理经验,所以ChinaMSP AIOps更适合云环境,支持将您的云上业务和本地IDC数据中心管理无缝结合。
ChinaMSP AIOps具体特点如下:
 
总结:AIOps是必然的选择
随着云大量的采用,IT环境越来越复杂,运维管理的任务也越来越繁重,运维自动化可以解决一部分问题,但是一直困扰运维的报警收敛,一些更为灵活的配置需求,依靠运维自动化还不能完全解决,通过AIOps的方法,则可以更深层次的解决这些问题,并且还可以为IT运维决策提供更智能的依据,预测将要发生的一些趋势,随着时间推移,AIOps是必然的选择。

 

参考:https://blog.csdn.net/micklongen/article/details/90311395

https://blog.csdn.net/qq_42820805/article/details/115535442

posted @ 2024-03-25 10:02  konglingbin  阅读(232)  评论(0编辑  收藏  举报