zabbix监控概念
未经允许不得转载
第1章 *监控*
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。
目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力,效率最高的方案。
1.1 *监控目标*
我们先来了解什么是监控,监控的重要性以及监控的目标,当然每个人所在的行业不同、公司不同、业务不同、岗位不同、对监控的理解也不同,但是需要注意,监控是需要站在公司的业务角度去考虑,而不是针对某个监控技术的使用。
监控目标:
1.对系统不间断实时监控
2.实时反馈系统当前状态
3.保证服务可靠性安全性
4.保证业务持续稳定运行
1.2 *监控方法*
#如何实施监控
1.了解监控对象
2.性能基准指标
3.报警阈值定义
4.故障处理流程
例如:需要监控磁盘的使用率
1.如何查看磁盘使用率 df -h
2.监控磁盘的那些指标 block、inode
3.如何获取具体的信息 df -h|awk '//$/{print $(NF-1)}'
4.获取的数值到达多少报警 80%
1.3 *监控核心*
了解了监控的方法、监控对象、性能指标、报警阈值定义、以及故障处理流程几步骤,当然更需要知道监控的核心是什么?
1.发现问题:当系统发生故障报警,会收到故障报警的信息
2.定位问题:故障邮件一般都会写某某主机故障、具体故障的内容,需要对报警内容进行分析,比如一台服务器连不上:我们就需要考虑是网络问题、还是负载太高导致长时间无法连接,又或者某开发触发了防火墙禁止的相关策略等等,我们就需要去分析故障具体原因。
3.解决问题:当然我们了解到故障的原因后,就需要通过故障解决的优先级去解决该故障。
4.总结问题:当我们解决完重大故障后,需要对故障原因以及防范进行总结归纳,避免以后重复出现。
1.4 *监控指标*
监控内容分类整理:
1.硬件监控 路由器、交换机、防火墙
2.系统监控 CPU、内存、磁盘、网络、进程、TCP
3.服务监控 nginx、php、tomcat、redis、memcache、mysql....
4.WEB监控 响应时间、加载时间、渲染时间、
5.日志监控 ELk(收集、存储、分析、展示) 日志易
6.安全监控 Firewalld、WAF(Nginx+lua)、安全宝、牛盾云、安全狗
7.网络监控 smokeping 多机房
8.业务监控