监控运维平台
1.监控的目的
google指出,监控分为白盒监控和黑盒监控之分。 白盒监控: 通过监控内部的运行状态及指标判断可能会发生的问题,从而做出预判或对其进行优化。 黑盒监控: 监控系统或服务,在发生异常时做出相应措施。 监控的目的如下: 1.根据历史监控数据,对未来做出预测 2.发生异常时,及时报警,或做出相应措施 3.根据监控报警及时定位问题根源 4.通过可视化图表展示,便于直观获取信息
2.运维监控平台设计思路
1.所需模块 数据收集模块 数据提取模块 监控告警模块
2.可以细化为6层: 第六层: # 用户展示管理层 同一用户管理、集中监控、集中维护 第五层: # 告警事件生成层 实时记录告警事件、形成分析图表(趋势分析、可视化) 第四层: # 告警规则配置层 告警规则设置、告警伐值设置 第三层: # 数据提取层 定时采集数据到监控模块 第二层: # 数据展示层 数据生成曲线图展示(对时序数据的动态展示) 第一层: # 数据收集层 多渠道监控数据
3.监控指标(自底向上)
1.系统层监控 系统监控:cpu、load、memory、swap、diskio、processes、kernelParameters … 网络监控:网络设备、工作负载、网络延迟、丢包率 …
2.中间件及基础设施类系统监控 消息中间件:kafka、rocketMQ、Rabbitmq等 web服务容器:nginx、tomcat、apache等 数据库及缓存系统:mysql、Psql、mogodb、ES、redis等。 数据库连接池:ShardingSpere等 存储系统:ceph等 3.应用层监控 用于检测应用程序代码的状态和性能 4.业务层监控 业务接口:登录数、注册、搜索量等
4.三个监控方法论
1、黄金指标 源于google的SRE一书。(适用于应用及服务监控) 1.延迟 服务请求所需要的时长,例如http请求的平均时长 2.流量 衡量服务的容量需求,例如每秒处理的http请求数量或者其他事务数量。 3.错误 请求失败的情况,例如网站返回错误代码。 4.饱和度 衡量资源的使用情况,用于展示服务器或应用程序资源,例如cpu、内存、IO、网络的使用量 2、Netflix的USE方法 主要用于分析系统性能问题 (适用于主机、服务器指标监控) 1.使用率,关注系统资源的使用情况,包括不限于cpu、内存、io、网络等,100%使用率通常是系统性能瓶颈的标志。 2.饱和度 3.错误 3、red方法 基于黄金指标,结合kubernetes容器实践,适合云原生应用和微服务架构应用。 red方法主要关注以下3种关键指标: 1.rate :每秒接收到的请求数 2.errors:每秒失败的请求数 3.duration:每个请求所花费的时间
pass
上帝说要有光,于是便有了光;上帝说要有女人,于是便有了女人!
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 我与微信审核的“相爱相杀”看个人小程序副业
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· DeepSeek R1 简明指南:架构、训练、本地部署及硬件要求