运维监控理论
监控
1,识别监控对象
2,理解监控对象
3,细分监控对象的指标
4,确定告警的基准线
预中级
1,工具化和监控分离
2,监控对象分离
2.1 硬件监控(方法:机房巡检,IPMI,SNMP)
2.2 系统监控(对象:CPU,内存,IO[磁盘,网络])
2.3 服务监控(对象:各类服务[Nginx|Tomcat|RabbitMQ|OpenStack|MySQL|*])
2.4 日志监控(方法:ELK)
2.5 网络监控(方法:第三方,Smokeping)
2.6 APM应用性能管理(工具:听云 PINPoint)
2.7流量监控(工具:Piwik)
2.8其他监控(安全监控,业务监控,舆论监控)
3,掌握一个监控工具。例如Zabbix
中级
1,标准化监控(标准化的脚步,模板)
2,分布式监控(主动,被动,分布式)
3,自动化监控(自动发现,主动注册[Agent主动注册,Server主动添加(API)])
4,性能优化(数据采集,数据存储,数据查询)
5,二次开发(定制的报表,api调用)
进阶
1,动态告警
2,智能告警: 告警去重 依赖
3,故障自愈(事件驱动,主动控制)
4,大规模
硬件监控
1,机房巡检
2,通过网络巡检
Dell iDRAC
HP ILO
IBM IMM
系统监控
CPU
进程:每一个进程,至少有一个线程。每个进程可以有多个线程
监控CPU命令
1 2 3 4 5 | yum - y install sysstat vmstat 1 10 mpstat 1 10 cat / proc / loadavg lscpu |
内存
IO
1 | yum - t install iotop |
网络IO
iftop
制定网卡查看
1 | iftop - i eth0 |
查看进程占用的流量
1 | nethogs |
网络监控
ping检测 http://ping.chinaz.com/
工具 SmokePing
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了