监控运维平台

1.监控的目的
复制代码
google指出,监控分为白盒监控和黑盒监控之分。
  白盒监控:
        通过监控内部的运行状态及指标判断可能会发生的问题,从而做出预判或对其进行优化。

  黑盒监控:
        监控系统或服务,在发生异常时做出相应措施。

  监控的目的如下:
    1.根据历史监控数据,对未来做出预测
    2.发生异常时,及时报警,或做出相应措施
    3.根据监控报警及时定位问题根源
    4.通过可视化图表展示,便于直观获取信息
复制代码

2.运维监控平台设计思路

复制代码
1.所需模块
    数据收集模块
    数据提取模块
    监控告警模块
2.可以细化为6层: 第六层:
# 用户展示管理层 同一用户管理、集中监控、集中维护 第五层: # 告警事件生成层 实时记录告警事件、形成分析图表(趋势分析、可视化) 第四层: # 告警规则配置层 告警规则设置、告警伐值设置 第三层: # 数据提取层 定时采集数据到监控模块 第二层: # 数据展示层 数据生成曲线图展示(对时序数据的动态展示) 第一层: # 数据收集层 多渠道监控数据
复制代码

3.监控指标(自底向上)

复制代码
1.系统层监控
    系统监控:cpu、load、memory、swap、diskio、processes、kernelParameters …
    网络监控:网络设备、工作负载、网络延迟、丢包率 …
2.中间件及基础设施类系统监控 消息中间件:kafka、rocketMQ、Rabbitmq等 web服务容器:nginx、tomcat、apache等 数据库及缓存系统:mysql、Psql、mogodb、ES、redis等。 数据库连接池:ShardingSpere等 存储系统:ceph等 3.应用层监控 用于检测应用程序代码的状态和性能 4.业务层监控 业务接口:登录数、注册、搜索量等
复制代码

4.三个监控方法论

复制代码
1、黄金指标
    源于google的SRE一书。(适用于应用及服务监控)
    1.延迟
        服务请求所需要的时长,例如http请求的平均时长
    2.流量
        衡量服务的容量需求,例如每秒处理的http请求数量或者其他事务数量。
    3.错误
        请求失败的情况,例如网站返回错误代码。
    4.饱和度
        衡量资源的使用情况,用于展示服务器或应用程序资源,例如cpu、内存、IO、网络的使用量

2、Netflix的USE方法
    主要用于分析系统性能问题 (适用于主机、服务器指标监控)
    1.使用率,关注系统资源的使用情况,包括不限于cpu、内存、io、网络等,100%使用率通常是系统性能瓶颈的标志。
    2.饱和度
    3.错误

3、red方法
    基于黄金指标,结合kubernetes容器实践,适合云原生应用和微服务架构应用。
    red方法主要关注以下3种关键指标:
    1.rate :每秒接收到的请求数
    2.errors:每秒失败的请求数
    3.duration:每个请求所花费的时间
复制代码

 

 

pass

posted @   thep0st  阅读(207)  评论(0编辑  收藏  举报
(评论功能已被禁用)
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 我与微信审核的“相爱相杀”看个人小程序副业
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· DeepSeek R1 简明指南:架构、训练、本地部署及硬件要求
点击右上角即可分享
微信分享提示