08 2024 档案

摘要:海大集团介绍 海大集团是以科技为主导的中国农业龙头企业,1998年成立于广东广州,目前业务涵盖饲料、种苗、动保疫苗、智慧养殖、食品加工等现代农牧全产业链,在全球拥有分子公司逾600家、员工达4万人,位列2023中国企业500强第238位、2023中国民营企业500强第87位。凭借亮眼的业务表现和品牌 阅读全文
posted @ 2024-08-30 11:45 IT运维监控 阅读(102) 评论(0) 推荐(0) 编辑
摘要:Prometheus 告警事件中的 $value 表示当前告警触发时的值,但是在告警恢复时,Resolved 事件中的 $value 仍然是最新告警时的值,并非是恢复时的值,这是什么原因和原理?是否有办法来解决呢? 不废话,先说原理。 原理 告警规则是配置在 prometheus.yaml 中的,由 阅读全文
posted @ 2024-08-29 17:11 IT运维监控 阅读(354) 评论(0) 推荐(0) 编辑
摘要:各类监控系统都会产生告警事件,于是,就产生了 FlashDuty、PagerDuty、Opsgenie 这类产品,做告警事件的收敛降噪、排班认领升级等。如果你想增强自己公司的告警事件处理能力,参考(chao xi)这些产品的功能就可以了 😎。 告警集成:目标是在一个Oncall平台上处理所有告警, 阅读全文
posted @ 2024-08-28 14:56 IT运维监控 阅读(494) 评论(0) 推荐(2) 编辑
摘要:如果你了解过 Kafka,那么它用到的一个性能优化技术可能会引起你的注意 -- 操作系统的零拷贝(zero-copy)优化。 零拷贝操作可以避免对数据的非必要拷贝,当然,并非是说完全没有拷贝。 在 Kafka 的场景下,操作系统可以从 page cache 拷贝数据到 socket buffer,直 阅读全文
posted @ 2024-08-27 11:31 IT运维监控 阅读(297) 评论(0) 推荐(0) 编辑
摘要:原文:https://last9.io/blog/convert-opentelemetry-traces-to-metrics-using-spanconnector/ 如果您已经实施了跟踪但缺乏强大的指标功能怎么办? SpanConnector 是一个通过将跟踪数据转换为可操作指标来弥补这一差距 阅读全文
posted @ 2024-08-26 11:40 IT运维监控 阅读(246) 评论(0) 推荐(1) 编辑
摘要:前言 监控系统的重要性不言而喻,国内用的最多的应该是 Zabbix 和 Prometheus,其优缺点: Zabbix 是资产管理式,监控数据存在数据库中,擅长设备监控,不擅长微服务和云原生环境的监控;推出时间较早,社区活跃度较高 Prometheus 是云原生环境的监控利器,支持多维度的指标数据, 阅读全文
posted @ 2024-08-20 09:44 IT运维监控 阅读(295) 评论(0) 推荐(1) 编辑
摘要:什么是可观测性? 可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问 阅读全文
posted @ 2024-08-14 18:03 IT运维监控 阅读(141) 评论(0) 推荐(0) 编辑
摘要:本文翻译自:https://sematext.com/blog/top-10-must-have-alerts-for-kubernetes/ 运行 Kubernetes 集群,显然不止是启动,还需要持续监控,以确保 Kubernetes 中的服务能正常运行。 不过,您不想整天盯着一堆 Kubern 阅读全文
posted @ 2024-08-13 11:46 IT运维监控 阅读(123) 评论(0) 推荐(0) 编辑
摘要:首先,得了解告警和恢复的原理,参考官方文档: https://flashcat.cloud/docs/content/flashcat-monitor/nightingale-v6/faq/alerting-logic/ 对于某个告警规则(假设其归属业务组 A),其 promql 为 cpu_usa 阅读全文
posted @ 2024-08-12 16:12 IT运维监控 阅读(49) 评论(0) 推荐(0) 编辑
摘要:大浪淘沙,2024 年的今天,市面上很多监控系统慢慢淡出了大家的视野,而一些新的监控系统也逐渐崭露头角。今天我们就来看看 2024 年的当下,哪些 IT 运维监控系统最值得关注。 Prometheus 毫无疑问,Prometheus 是最值得关注的监控系统,因为 Prometheus 的规范和生态都 阅读全文
posted @ 2024-08-12 14:58 IT运维监控 阅读(468) 评论(0) 推荐(0) 编辑
摘要:很感谢夜莺提供如此优质的平台能和行业内顶尖技术大佬做面对面的交流,在这个会议中又学习到了很多有趣有深度的内容,给我在未来探索的道路上提供了一些新的指引方向。同时感谢夜莺社区的邀请,在此再做一次关于AI方面的交流文章,由于目前我也是在AI这条赛道上的探索者,如果有不专业的地方还希望各位手下留情,同时希 阅读全文
posted @ 2024-08-09 17:49 IT运维监控 阅读(645) 评论(0) 推荐(0) 编辑
摘要:AlertManager 是一个开源警报系统,与 Prometheus 监控系统配合使用。本博客是 Prometheus Kubernetes 教程系列的一部分。在我们之前的文章中,我们研究了以下内容: 在 Kubernetes 上部署 Prometheus 部署 Kube State Metric 阅读全文
posted @ 2024-08-06 14:40 IT运维监控 阅读(101) 评论(0) 推荐(0) 编辑
摘要:在本指南中,我们将详细了解Grafana Loki架构及其组件。 在公司的分布式环境中,存储和管理来自各种系统资源的日志是一项具有挑战性的任务。为了简化这项任务,引入了一个称为日志聚合的概念,它从各种系统资源中收集、存储、管理日志。有各种各样的日志聚合工具,其中一个工具是 Grafana Loki, 阅读全文
posted @ 2024-08-01 14:58 IT运维监控 阅读(793) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示