上一页 1 ··· 9 10 11 12 13 14 15 下一页
摘要: 问题 监控系统用于监控其他的系统、基础设施,绝对是 P0 级的服务,那监控系统的自监控应该怎么做呢?如果自己监控自己,有些组件挂掉了难免循环依赖,如果单独搞一套新的监控系统来监控当前服役的监控系统,又搞得有些过于复杂。本文我们来探讨一下监控系统的自监控应该怎么做。 解决方案:自身指标 首先,监控系统 阅读全文
posted @ 2023-07-10 16:11 IT运维监控 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 原始需求是如果系统的密码被修改,或者创建了新用户,就告警出来。本质上,只需要监控 /etc/shadow 文件变化即可。但是在指标监控体系里,这个事情就比较棘手,只能把文件的 mtime 作为指标的值上报,服务端再利用 delta 或者 increase 函数来判断 mtime 是否发生了变化。告警 阅读全文
posted @ 2023-06-25 20:07 IT运维监控 阅读(63) 评论(0) 推荐(0) 编辑
摘要: JVM 默认会通过 JMX 的方式暴露基础指标,很多中间件也会通过 JMX 的方式暴露业务指标,比如 Kafka、Zookeeper、ActiveMQ、Cassandra、Spark、Tomcat、Flink 等等。掌握了 JMX 监控方式,就掌握了一批程序的监控方式。本节介绍 JMX-Export 阅读全文
posted @ 2023-06-20 11:00 IT运维监控 阅读(449) 评论(0) 推荐(0) 编辑
摘要: 笔者从 12 年开始入行,从事 DevOps 研发工作,做过部署系统、监控系统、可观测性相关产品,也做过 SRE 一线和管理工作,对于可观测性的理解和实践,有一些小小的见解,利用本文和大家做一个探讨分享。本文主要内容包括: 可观测性在整个商业体系中的位置和价值 如何快速发现故障,使用哪类指标告警 S 阅读全文
posted @ 2023-06-19 10:05 IT运维监控 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 之前新东方的老师分享了他们通过 Telegraf、Loki、Nightingale 等工具来监控机器硬件状态的方案,具备很强的灵活性、平台性。本文会介绍一个相对轻量的方式,只需要一个二进制+一个脚本即可搞定,给各位朋友提供一种新的选择 阅读全文
posted @ 2023-06-14 17:03 IT运维监控 阅读(367) 评论(0) 推荐(0) 编辑
摘要: ## Core Dump 是什么? Core Dump 是指进程异常退出时,操作系统将进程的内存状态保存到文件中,这个文件就是 Core Dump 文件,中文一般翻译为“核心转储”,哈,看起来还不如不翻译。 我们可以认为 Core Dump 是“内存快照”,但实际上,除了内存信息之外,还有些关键的程 阅读全文
posted @ 2023-06-13 15:15 IT运维监控 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 问题 在系统日志中(/var/log/messages),有时会看到大面积的下面的报错: nf_conntrack: table full, dropping packet 这说明系统接到了大量的连接请求,但是系统的连接跟踪表已经满了,无法再记录新的连接了。这时候,系统会丢弃新的连接请求。 在 Ce 阅读全文
posted @ 2023-06-12 21:56 IT运维监控 阅读(195) 评论(0) 推荐(0) 编辑
摘要: catpaw一个绝对轻量的事件监控工具 阅读全文
posted @ 2023-06-08 10:37 IT运维监控 阅读(279) 评论(0) 推荐(0) 编辑
摘要: SRE 首要任务是制定并推动达成 SLO,本文介绍 SLO 的相关实践。成为 SRE 第一步:搞定 SLO,协助制定、推动达成! 阅读全文
posted @ 2023-05-26 17:05 IT运维监控 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 不可能有 100% 的服务可用性,也没有必要做到 100% 的服务可用性。如何度量风险,如何制定 SLO,如何提升稳定性,如何权衡成本和产出 阅读全文
posted @ 2023-05-25 12:55 IT运维监控 阅读(217) 评论(0) 推荐(0) 编辑
上一页 1 ··· 9 10 11 12 13 14 15 下一页