06-运维领域实践
云原生基础设施
云原生并不是一个单纯的技术,更是一种思想,是技术、企业管理方法的集合
云原生基础设施为技术创新和流程改进提供了核心支撑平台
核心能力:依托于容器的一致性运行环境、基于声明式 API 的系统、统一的可观测性方案
可观测性
可观测性一般从事件日志、链路追踪和聚合指标三个方向进行研究
可观测性有助于你成为“系统侦探”,在系统运行时能够提出和回答新问题
Open Telemetry 是由 CNCF 推出的可观测性生态标准规范,提供与厂商无关的可观测性解决方案
全景监控
全景的监控、可观测性解决方案,有助于实现持续交付
全景监控的主要价值是帮助企业实现业务透明,提高对问题的响应速度,增加对全局的把控
监控体系通常包括监控数据的采集、传输、落盘、可视化、警情评估、监控告警和数据分析
衡量监控有效性:能够有效降低运维风险,帮助开发工程师在软件开发和交付过程中提高效能,根据监控数据帮助人们做出正确的决策
智能运维
AIOps 是基于自动化运维,将人工智能技术和传统自动化运维相结合,能够提升运维效能
AIOps 实施的关键技术包含数据采集、数据处理、数据存储、数据分析和 AIOps 算法
AIOps 最主要的应用场景有三种:运维保障、成本优化和效率提升
常见算法技术:指标趋势预测、指标聚类、多指标联动关联挖掘、指标与事件关联挖掘、事件与事件关联挖掘和故障传播关系挖掘
混沌工程
混沌工程是一项提升复杂系统稳定性的赋能活动
混沌工程有三个好处:系统可用性的提升、故障平均恢复时长的降低、故障平均发现时长的降低
混沌工程通过故障注入实验,增强各个角色协作,提升系统稳定性
混沌工程根据实验观测数据,分析系统运行和失效模式,以了解复杂系统
混沌工程通过改进系统稳定性设计和可观测机制,以提升系统韧性和故障响应速度
ChatOps
ChatOps 是一种相对新颖的智能工作方式(参考飞书),连接人、机器人和工具
ChatOps 以在线沟通平台为中心,通过机器人对接后端各个服务
ChatOps 由四个部分组成:自动化的流程、聊天室(变样的控制中心)、机器人( CLI 式的连接中心)、基础设施
ChatOps 将从当下简单指令形驱动向数据和流程驱动形发展
解读
有关于 ChatOps 其实知识 XxOps 的一种, chatOps 的主要目的在于随时可以影响环境,这个随时不再是要经过冗长的审核(当然必要的审核是非常有用的),AIOps 的主要目的是降低对重复扩容需求/参数调整需求的变更;DataOps 的主要目的是通过数据流进行自动化。
混沌工程较为复杂,很难理解。