Zabbix 简介与监控
zabbix 监控
abbix是一个基于WEB界面的提供分布式系统监控以及网络监控功能的企业级开源运维平台,也是目前国内互联网用户中使用最广的监控软件,云计算遇到的85%以上用户在使用Zabbix做监控解决方案。
入门容易、上手简单、功能强大并且开源免费是对Zabbix的最直观评价。Zabbix易于管理和配置,能生成比较漂亮的数据图,其自动发 现功能大大减轻日常管理的工作量,丰富的数据采集方式和API接口可以让用户灵活进行数据采集,而分布式系统架构可以支持监控更多的设备。理论上,通过 Zabbix提供的插件式架构,可以满足企业的任何需求。
优点:
1. 支持多平台的企业级分布式开源监控软件
2. 安装部署简单,多种数据采集插件灵活集成
3. 功能强大,可实现复杂多条件告警,
4. 自带画图功能,得到的数据可以绘成图形
5. 提供多种API接口,支持调用脚本
6. 出现问题时可自动远程执行命令(需对agent设置执行权限)
缺点:
1. 项目批量修改不方便
2. 入门容易,能实现基础的监控,但是深层次需求需要非常熟悉Zabbix并进行大量的二次定制开发,难度较大;
3. 系统级别报警设置相对比较多,如果不筛选的话报警邮件会很多;并且自定义的项目报警需要自己设置,过程比较繁琐(但是网上的模板比较,也可以使用模板导入的方法);
4. 缺少数据汇总功能,如无法查看一组服务器平均值,需进行二次开发;
5. 数据报表需要特殊二次开发定义;
监控软件 zabbix/nagios + cacti/Prometheus(普罗米修斯)
监控职责与命令监控
1.保障企业数据的安全可靠。
2.为客户提供7*24小时服务。
3.不断提升用户的体验。
4. 通过命令监控
4.1 如果想远程管理服务器就有远程管理卡,比如Dell idRAC,HP ILO,IBM IMM
4.2 查看硬件的温度/风扇转速,电脑有撸大师,服务器就有ipmitool。使用ipmitool实现对服务器的命令行远程管理
yum -y install OpenIPMI ipmitool #->IPMI在物理机可以成功,虚拟机不行 [root@KVM ~]# ipmitool sdr type Temperature Temp | 01h | ns | 3.1 | Disabled Temp | 02h | ns | 3.2 | Disabled Temp | 05h | ns | 10.1 | Disabled Temp | 06h | ns | 10.2 | Disabled Ambient Temp | 0Eh | ok | 7.1 | 22 degrees C Planar Temp | 0Fh | ns | 7.1 | Disabled IOH THERMTRIP | 5Dh | ns | 7.1 | Disabled CPU Temp Interf | 76h | ns | 7.1 | Disabled Temp | 0Ah | ns | 8.1 | Disabled Temp | 0Bh | ns | 8.1 | Disabled Temp | 0Ch | ns | 8.1 | Disabled
负载主要反映 cpu, 磁盘IO跟内存没关系
4.4 想知道了cpu性能好不好、忙不忙可以用 lscpu、uptime、top、htop、vmstat、mpstat。
lscpu
查看cpu的信息,比如cpu的核数 (CPU(s):2)
uptime
[root@zabbix ~]# uptime(w) 10:07:47 up 50 min, 3 users, load average: 0.00, 0.00, 0.00 当前系统时间 up 运行时间 3user 登录的用户数 load average 平均负载 1, 5, and 15 minutes 最佳负载:过去1分钟的平均负载等于CPU的核数(或者2倍)怎么判断服务器的负载过高:就是看你的过去1分钟的平均负载是否超过CPU的核数(或者2倍)
top
实时动态查看系统负载 快捷键: z 加颜色 x 高亮显示排序区域 < > 向左,向右切换 [root@zabbix ~]# top top - 10:16:32 up 59 min, 3 users, load average: 0.00, 0.00, 0.00 # 第一行和uptime一样 Tasks: 74 total, 1 running, 73 sleeping, 0 stopped, 0 zombie # 第二行 显示当前进程统计信息 zombie 僵尸 僵死进程 Cpu(s): 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st # 第三行 cpu的统计信息 %us 用户使用的cpu百分比 %sy 系统使用的cpu百分比 %id (idle) 空闲的cpu百分比 Mem: 1004112k total, 117104k used, 887008k free, 9480k buffers # 第四行 内存的统计信息 Swap: 786428k total, 0k used, 786428k free, 30700k cached # 第五行 swap的统计信息 PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 7 root 20 0 0 0 0 S 0.3 0.0 0:07.67 events/0 1 root 20 0 19352 1532 1228 S 0.0 0.2 0:01.10 init 2 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kthreadd htop top命令的进阶版,支持鼠标 yum -y install htop
4.5 内存够不够可以用 free、vmstat。 free -h (CentOS6.5以前的系统free命令没有-h参数,只有-m) 4.6 磁盘剩多少写的快不快可以用df、dd、iotop、iostat。 dd if=/dev/zero of=test.data bs=1M count=10 if input file 输入文件 /dev/zero 这是系统的特殊设备,能够源源不断的产生0字符流 of output file 输出设备 bs block size 块大小 count block块的数量 总结:产生的test.data文件大小 bs * count 经验:最佳测试磁盘写的速度的测试文件test.data至少大于内存的值 iotop 实时查看系统的io(输入输出)负载 yum -y install iotop 4.7 网络太卡找iftop, nethogs iftop 查看网卡的流量 iftop默认监控eth0网卡的流量 iftop -i eth1 nethogs 查看每个进程的流量