云监控治理检测:云监控的自助化最佳实践
概述
在数字化转型浪潮中,云计算技术已成为企业实现敏捷性和创新的重要工具。作为全球领先的云服务提供商,阿里云在帮助企业实现高效云管理方面发挥着重要作用。
然而,随着云环境的日益复杂化和规模的不断扩大,如何有效管理和监控云资源,确保其高效、安全、合规地运行,成为企业面临的挑战。一方面,云监控多年来一直致力于提供更多的监控功能功能以便解决用户在更多场景下的监控需求,形成了丰富的平台能力。而另一方面,用户面临上云后如何做好监控的难题。不难发现,这两者之间存在间隙。那就是用户应该如何上手,如何借助阿里云监控这个平台多快好省地构建起一套完整的并且适合自己的监控体系。
为此,云监控提供了治理检测功能,能够帮助企业评估和提升其在运用云监控方面的能力,从而更好地应对这些挑战。它基于用户对资源的使用情况来推测用户所需的监控能力,帮助用户检测云监控的相关功能,并提供一键修复或治理建议,让用户自助化地运用云监控的最佳实践,构建一套完善的监控体系。
检测项分类
云监控将治理检测项分为监控覆盖、平台配置、使用状态、优化建议四大类,共 13 个检测项,全面涵盖用户在云监控运用过程中有没有做、有没有做对、有没有做好。以下以云产品资源监控和持续报警这两个检测项为例进行详细介绍。
云产品资源监控
云产品资源的运行状态直接影响着构建其上的应用以及支撑的业务。实现资源监控全覆盖是保证业务持续性的基础与关键。为云产品资源设置报警规则是实现云产品资源监控基础且必要的手段。如果存在云产品资源未被任何报警规则覆盖的情况将被视为需要关注和治理的问题。该检测项涵盖了包括 ECS、RDS、Redis、SLB、MongoDB、OSS 等在内的 17 款核心云产品。
如果用户在阿里云保有核心云产品的资源,则检测用户的报警规则是否对该资源进行了覆盖,如果没有覆盖,则判定该资源为待治理对象(如下图所示)。
用户可在按照检测报告中的提示,对这些监控未覆盖资源进行“一键治理”,云监控后台将自动开启一键报警,快速实现云产品资源监控的全覆盖。如果用户需要对报警规则进行细粒度的控制(监控指标、报警阈值、报警通知方式等),则可根据提示手动创建合适的报警规则,实现对云产品资源的覆盖。
持续报警
报警规则在符合设定规则的情况下处于报警状态是一种正常现象,但报警规则长期持续处于报警状态会直接导致报警疲劳(Alert Fatigure)--用户由于频繁收到大量报警信息,导致逐渐对这些报警失去敏感性,甚至开始忽略或不认真对待报警。报警疲劳会导致管理人员未能及时发现和响应真正关键的问题,进而可能导致系统出现严重故障或安全风险。因此,在配置报警规则时,需优化报警策略,减少不必要的报警,并对持续时间过长的报警规则、资源进行调整,以降低报警疲劳的风险是非常重要的。
当用户的报警规则中有任何一个在过去的 24 小时中持续处于报警状态(未恢复),则系统将该报警规则判定为待治理对象。通常情况下,需要尽快排除问题让监控指标恢复正常水位,或者需要结合实际情况调整报警规则阈值并消除误报警,避免影响正常的监控运维工作。
检测项一览
云监控治理检测的所有检测项见下表:
启用
当您初次使用治理检测功能时,需要先启用检测。登录云监控控制台->概览->治理检测 [ 14] 页面,点击立即检测。
- 在左侧导航栏,单击概览。
- 在概览页面,单击治理检测页签。
- 单击立即检测后,等待检测完成即可。
查看检测报告
当检测完成后,您可以在页面中查看各检测项的结果。点击存在问题的检测项后,您可根据详情页面中的提示信息,查看需治理的对象并根据建议执行相应的治理动作。
结语
本文介绍了云监控的治理检测功能,以及用户如何通过它自助化地运用云监控的最佳实践,完善自己的监控体系。欢迎您前往云监控控制台体验该功能,期待您的反馈。
相关链接:
[1] 云产品资源监控
https://help.aliyun.com/zh/cms/user-guide/cloud-product-resource-monitoring
[2] 云监控插件安装覆盖率
https://help.aliyun.com/zh/cms/user-guide/cloud-monitor-plug-in-installation-coverage
[3] 无效的报警规则
https://help.aliyun.com/zh/cms/user-guide/invalid-alarm-rule
[4] 关联了已过期资源的报警规则
https://help.aliyun.com/zh/cms/user-guide/alarm-rules-associated-with-expired-resources
[5] 包含不推荐的指标规则
https://help.aliyun.com/zh/cms/user-guide/include-recommend-indicator-rules
[6] 使用旧版本系统事件订阅规则
https://help.aliyun.com/zh/cms/user-guide/use-old-version-system-event-subscription-rules
[7] 回调失败
https://help.aliyun.com/zh/cms/user-guide/untitled-document-1690167894723
[8] 持续报警
https://help.aliyun.com/zh/cms/user-guide/continuous-alarm
[9] 使用不推荐的云监控插件版本
https://help.aliyun.com/zh/cms/user-guide/use-an-recommend-version-of-the-cloudmonitor-plug-in
[10] 调用不推荐的云监控 API
https://help.aliyun.com/zh/cms/user-guide/call-an-unrecommend-cloud-monitoring-api
[11] 定期关注资源负载情况
https://help.aliyun.com/zh/cms/user-guide/regularly-monitor-resource-load
[12] 使用高效方式获取指标数据
https://help.aliyun.com/zh/cms/user-guide/use-an-efficient-way-to-capture-metric-data
[13] 持续监控公网服务的可用性
[14] 持续监控公网服务的可用性