FlashDuty- - IT运维监控

摘要：集成Zabbix告警到FlashDuty，获得告警降噪、智能排班、IM协同等能力阅读全文

posted @ 2023-05-16 11:53 IT运维监控阅读(457) 评论(0) 推荐(0) 编辑

摘要：catpaw一个绝对轻量的事件监控工具阅读全文

posted @ 2023-06-08 10:37 IT运维监控阅读(279) 评论(0) 推荐(0) 编辑

如何解决系统报错：nf_conntrack: table full, dropping packets

摘要：问题在系统日志中（/var/log/messages），有时会看到大面积的下面的报错： nf_conntrack: table full, dropping packet 这说明系统接到了大量的连接请求，但是系统的连接跟踪表已经满了，无法再记录新的连接了。这时候，系统会丢弃新的连接请求。在 Ce 阅读全文

posted @ 2023-06-12 21:56 IT运维监控阅读(195) 评论(0) 推荐(0) 编辑

core dump 路径定义以及监控

摘要：## Core Dump 是什么？ Core Dump 是指进程异常退出时，操作系统将进程的内存状态保存到文件中，这个文件就是 Core Dump 文件，中文一般翻译为“核心转储”，哈，看起来还不如不翻译。我们可以认为 Core Dump 是“内存快照”，但实际上，除了内存信息之外，还有些关键的程阅读全文

posted @ 2023-06-13 15:15 IT运维监控阅读(135) 评论(0) 推荐(0) 编辑

机器硬件监控，最简单的方案，没有之一

摘要：之前新东方的老师分享了他们通过 Telegraf、Loki、Nightingale 等工具来监控机器硬件状态的方案，具备很强的灵活性、平台性。本文会介绍一个相对轻量的方式，只需要一个二进制+一个脚本即可搞定，给各位朋友提供一种新的选择阅读全文

posted @ 2023-06-14 17:03 IT运维监控阅读(364) 评论(0) 推荐(0) 编辑

如何监控文件变化，比如密码修改导致 shadow 文件变化

摘要：原始需求是如果系统的密码被修改，或者创建了新用户，就告警出来。本质上，只需要监控 /etc/shadow 文件变化即可。但是在指标监控体系里，这个事情就比较棘手，只能把文件的 mtime 作为指标的值上报，服务端再利用 delta 或者 increase 函数来判断 mtime 是否发生了变化。告警阅读全文

posted @ 2023-06-25 20:07 IT运维监控阅读(63) 评论(0) 推荐(0) 编辑

监控系统自监控怎么做？

摘要：问题监控系统用于监控其他的系统、基础设施，绝对是 P0 级的服务，那监控系统的自监控应该怎么做呢？如果自己监控自己，有些组件挂掉了难免循环依赖，如果单独搞一套新的监控系统来监控当前服役的监控系统，又搞得有些过于复杂。本文我们来探讨一下监控系统的自监控应该怎么做。解决方案：自身指标首先，监控系统阅读全文

posted @ 2023-07-10 16:11 IT运维监控阅读(189) 评论(0) 推荐(0) 编辑

FlashDuty Changelog 2023-09-07 | 新增深色模式与主题配置

摘要：FlashDuty：一站式告警响应平台，前往此地址免费体验！ FlashDuty 现在已经全面支持了深色模式，这为您提供了更柔和的光线和舒适的界面外观。并且，您可以根据自己的喜好和使用环境动态切换深色和浅色模式与主题，提高使用体验的个性化和灵活性。深色模式效果预览为了确保在深色模式下能够呈现出更阅读全文

posted @ 2023-09-25 11:04 IT运维监控阅读(52) 评论(0) 推荐(0) 编辑

FlashDuty Changelog 2023-09-21 | 自定义字段和开发者中心

摘要：FlashDuty：一站式告警响应平台，前往此地址免费体验！自定义字段 FlashDuty 已支持接入大部分常见的告警系统，我们将推送内容中的大部分信息放到了 Lables 进行展示。尽管如此，我们用户还是会有一些扩展或定制性的需求，比如人工标记一个故障是否为误报。因此我们提供了自定义字段功能，来阅读全文

posted @ 2023-09-25 12:17 IT运维监控阅读(35) 评论(0) 推荐(0) 编辑

FlashDuty Changelog 2023-09-21 | 自定义字段和开发者中心

摘要：FlashDuty：一站式告警响应平台，前往此地址免费体验！自定义字段 FlashDuty 已支持接入大部分常见的告警系统，我们将推送内容中的大部分信息放到了 Lables 进行展示。尽管如此，我们用户还是会有一些扩展或定制性的需求，比如人工标记一个故障是否为误报。因此我们提供了自定义字段功能，来阅读全文

posted @ 2023-10-13 14:09 IT运维监控阅读(61) 评论(0) 推荐(0) 编辑

FlashDuty Changelog 2023-10-30 | 告警路由与 Slack 应用

摘要：FlashDuty：一站式告警响应平台，前往此地址免费体验！告警路由什么是告警路由？ FlashDuty已经与Zabbix、Prometheus等监控系统实现无缝集成，通过一个简单的webhook就可以把告警系统产生的所有告警事件推送到FlashDuty来管理。每个告警事件的重要性、紧急程度和所阅读全文

posted @ 2023-11-27 10:31 IT运维监控阅读(27) 评论(0) 推荐(0) 编辑

Flashduty 案例分享 - 益丰大药房

摘要：Flashduty 作为功能完备的事件OnCall中心，可以接入云上、云下不同监控系统，统一做告警降噪分派、认领升级、排班协同，已经得到众多先进企业的认可。我们采访了一些典型客户代表，了解他们的痛点、选型考虑和未来展望，集成本系列文章，以飨读者。本次采访的是来自益丰大药房的高级运维工程师张望。益丰阅读全文

posted @ 2024-01-08 11:39 IT运维监控阅读(134) 评论(0) 推荐(0) 编辑

Flashduty 案例分享 - 途游游戏

摘要：Flashduty 作为功能完备的事件OnCall中心，可以接入云上、云下不同监控系统，统一做告警降噪分派、认领升级、排班协同，已经得到众多先进企业的认可。我们采访了一些典型客户代表，了解他们的痛点、选型考虑和未来展望，集成本系列文章，以飨读者。本次有幸在邹老板支持下访谈到途游资深运维工程师高工，阅读全文

posted @ 2024-01-10 10:14 IT运维监控阅读(180) 评论(0) 推荐(0) 编辑

FlashDuty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成

摘要：FlashDuty：一站式告警响应平台，前往此地址免费体验！值班管理 UI 交互优化【个人日程】从头像下拉菜单调整到值班列表页面，快速查看个人值班日程【值班列表】支持原地预览最近一周值班情况，包括当前和下一阶段值班人【值班详情】支持日历模式与时间线模式切换，查看月度计划更方便【规则调整】支阅读全文

posted @ 2024-01-17 10:40 IT运维监控阅读(78) 评论(0) 推荐(0) 编辑

像 Google SRE 一样 OnCall

摘要：在 Google SRE 的著作《Google运维解密》(原作名：Site Reliability Engineering: How Google Runs Production Systems)中，Google SRE 的关键成员们几乎不惜用了三个章节的篇幅描述了在 Google 他们是如何 On 阅读全文

posted @ 2024-01-19 17:01 IT运维监控阅读(100) 评论(0) 推荐(0) 编辑

专栏：手把手构建生产级监控系统

摘要：笔者去年在极客时间发布了一个专栏《运维监控系统实战笔记》，很多朋友借此梳理了较为体系化的运维监控系统知识，但是限于专栏篇幅，有些手把手实操类的内容没有办法展开，另外时隔一年，监控系统的技术栈也有了一些变化，所以笔者决定在这里把这些内容补充完整。监控系统的典型架构对于一些前置背景知识、名词解释、行阅读全文

posted @ 2024-01-25 12:15 IT运维监控阅读(128) 评论(0) 推荐(0) 编辑

专栏：数据库、中间件的监控一网打尽

摘要：前言对于数据库、中间件的监控，目前社区里最为完善的就是 Prometheus 生态的各个 Exporter，不过这些 Exporter 比较分散，不好管理，如果有很多目标实例需要监控，就要部署很多个 Exporter，要是能有一个大一统的 Exporter，具备所有这些 Exporter 的能力就阅读全文

posted @ 2024-01-29 19:48 IT运维监控阅读(165) 评论(0) 推荐(0) 编辑

告警恢复时，如何拿到当前值

摘要：在夜莺新版本中，告警规则直接使用 promql 来配置，阈值就包含在 promql 里面，所以恢复时是无法拿到当前值的，因为恢复时监控数据不达阈值，不达阈值就不会返回数据，所以也就无法拿到当前值。Prometheus 也是类似的问题，不过可以通过 go template 中的 query 函数曲线救阅读全文

posted @ 2024-02-01 13:26 IT运维监控阅读(152) 评论(0) 推荐(0) 编辑

史上最简单的日志告警方案，没有之一

摘要：如果你在意生产环境的稳定性，希望自己的服务出问题时及时发现，大概率就有日志监控告警的需求，比如发现日志中有 Error 或 Exception 关键字就告警，比如通过日志统计某个服务的 95 分位延迟数据，延迟过高就告警，比如通过日志统计某个服务的 status code，出现多个 5xx 就告警，阅读全文

posted @ 2024-02-02 17:06 IT运维监控阅读(243) 评论(0) 推荐(0) 编辑

2 分钟，了解 4 个极为有用的 MetricsQL 函数

摘要：夜莺社区的朋友如果问时序库的选型，我一般都会推荐 VictoriaMetrics，除了其性能、稳定性、集群扩展能力之外，VictoriaMetrics 还扩展了 PromQL，提供了 MetricsQL，即增强了 PromQL 的能力。比如下面介绍的场景，就很适合用 MetricsQL 来解决。需阅读全文

posted @ 2024-02-19 11:59 IT运维监控阅读(110) 评论(0) 推荐(0) 编辑

IT运维监控/可观测性

运维监控、运维自动化、Prometheus、Nightingale、Categraf

合集-FlashDuty

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论