监控运维平台

1.监控的目的

google指出，监控分为白盒监控和黑盒监控之分。
　　白盒监控：
        通过监控内部的运行状态及指标判断可能会发生的问题，从而做出预判或对其进行优化。

　　黑盒监控：
        监控系统或服务，在发生异常时做出相应措施。

　　监控的目的如下：
　　　　1.根据历史监控数据，对未来做出预测
　　　　2.发生异常时，及时报警，或做出相应措施
　　　　3.根据监控报警及时定位问题根源
　　　　4.通过可视化图表展示，便于直观获取信息

2.运维监控平台设计思路

1.所需模块
    数据收集模块
    数据提取模块
    监控告警模块

2.可以细化为6层：
    第六层: # 用户展示管理层    同一用户管理、集中监控、集中维护
    第五层: # 告警事件生成层    实时记录告警事件、形成分析图表（趋势分析、可视化）
    第四层: # 告警规则配置层    告警规则设置、告警伐值设置
    第三层: # 数据提取层    定时采集数据到监控模块
    第二层: # 数据展示层    数据生成曲线图展示（对时序数据的动态展示）
    第一层: # 数据收集层    多渠道监控数据

3.监控指标(自底向上)

1.系统层监控
    系统监控：cpu、load、memory、swap、diskio、processes、kernelParameters …
    网络监控：网络设备、工作负载、网络延迟、丢包率 …

2.中间件及基础设施类系统监控
    消息中间件：kafka、rocketMQ、Rabbitmq等
    web服务容器：nginx、tomcat、apache等
    数据库及缓存系统：mysql、Psql、mogodb、ES、redis等。
    数据库连接池：ShardingSpere等
    存储系统：ceph等

3.应用层监控
    用于检测应用程序代码的状态和性能

4.业务层监控
    业务接口：登录数、注册、搜索量等

4.三个监控方法论

1、黄金指标
    源于google的SRE一书。（适用于应用及服务监控）
    1.延迟
        服务请求所需要的时长，例如http请求的平均时长
    2.流量
        衡量服务的容量需求，例如每秒处理的http请求数量或者其他事务数量。
    3.错误
        请求失败的情况，例如网站返回错误代码。
    4.饱和度
        衡量资源的使用情况，用于展示服务器或应用程序资源，例如cpu、内存、IO、网络的使用量

2、Netflix的USE方法
    主要用于分析系统性能问题 （适用于主机、服务器指标监控）
    1.使用率，关注系统资源的使用情况，包括不限于cpu、内存、io、网络等，100%使用率通常是系统性能瓶颈的标志。
    2.饱和度
    3.错误

3、red方法
    基于黄金指标，结合kubernetes容器实践，适合云原生应用和微服务架构应用。
    red方法主要关注以下3种关键指标：
    1.rate ：每秒接收到的请求数
    2.errors：每秒失败的请求数
    3.duration：每个请求所花费的时间

pass

posted @ 2022-05-09 13:58 thep0st 阅读(233) 评论(0) 收藏举报

刷新页面返回顶部