摘要:
Prometheus 告警事件中的 $value 表示当前告警触发时的值,但是在告警恢复时,Resolved 事件中的 $value 仍然是最新告警时的值,并非是恢复时的值,这是什么原因和原理?是否有办法来解决呢? 不废话,先说原理。 原理 告警规则是配置在 prometheus.yaml 中的,由 阅读全文
摘要:
各类监控系统都会产生告警事件,于是,就产生了 FlashDuty、PagerDuty、Opsgenie 这类产品,做告警事件的收敛降噪、排班认领升级等。如果你想增强自己公司的告警事件处理能力,参考(chao xi)这些产品的功能就可以了 😎。 告警集成:目标是在一个Oncall平台上处理所有告警, 阅读全文
摘要:
如果你了解过 Kafka,那么它用到的一个性能优化技术可能会引起你的注意 -- 操作系统的零拷贝(zero-copy)优化。 零拷贝操作可以避免对数据的非必要拷贝,当然,并非是说完全没有拷贝。 在 Kafka 的场景下,操作系统可以从 page cache 拷贝数据到 socket buffer,直 阅读全文
摘要:
原文:https://last9.io/blog/convert-opentelemetry-traces-to-metrics-using-spanconnector/ 如果您已经实施了跟踪但缺乏强大的指标功能怎么办? SpanConnector 是一个通过将跟踪数据转换为可操作指标来弥补这一差距 阅读全文
摘要:
前言 监控系统的重要性不言而喻,国内用的最多的应该是 Zabbix 和 Prometheus,其优缺点: Zabbix 是资产管理式,监控数据存在数据库中,擅长设备监控,不擅长微服务和云原生环境的监控;推出时间较早,社区活跃度较高 Prometheus 是云原生环境的监控利器,支持多维度的指标数据, 阅读全文
摘要:
什么是可观测性? 可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问 阅读全文
摘要:
本文翻译自:https://sematext.com/blog/top-10-must-have-alerts-for-kubernetes/ 运行 Kubernetes 集群,显然不止是启动,还需要持续监控,以确保 Kubernetes 中的服务能正常运行。 不过,您不想整天盯着一堆 Kubern 阅读全文
摘要:
首先,得了解告警和恢复的原理,参考官方文档: https://flashcat.cloud/docs/content/flashcat-monitor/nightingale-v6/faq/alerting-logic/ 对于某个告警规则(假设其归属业务组 A),其 promql 为 cpu_usa 阅读全文
摘要:
大浪淘沙,2024 年的今天,市面上很多监控系统慢慢淡出了大家的视野,而一些新的监控系统也逐渐崭露头角。今天我们就来看看 2024 年的当下,哪些 IT 运维监控系统最值得关注。 Prometheus 毫无疑问,Prometheus 是最值得关注的监控系统,因为 Prometheus 的规范和生态都 阅读全文
摘要:
很感谢夜莺提供如此优质的平台能和行业内顶尖技术大佬做面对面的交流,在这个会议中又学习到了很多有趣有深度的内容,给我在未来探索的道路上提供了一些新的指引方向。同时感谢夜莺社区的邀请,在此再做一次关于AI方面的交流文章,由于目前我也是在AI这条赛道上的探索者,如果有不专业的地方还希望各位手下留情,同时希 阅读全文