Python——分布式监控项目
常用监控
zabbix(主流)
监控模式:主动和被动都可以
页面:3.0开始变漂亮,2.0很丑
超过2000+机器会卡机或者宕机,所以小米要开发自己的监控系统
nagios(主流)
openfalcon(国内比较好的监控系统,小米写的,作者现转到了滴滴打车,用Go语言写的,自己可以写各种插件)
cacti
gridcontrol(用Perl语言写的,Oracle出的监控数据库,也可以监控主机)
ganglia
常见监控需求
硬件信息
硬盘损坏(需要借助工具或者插件去定制)
网络监控
网络流量、丢包率
系统监控
cpu\ram\disk\load\io
应用监控
db,web,queue,cache,middleware
服务状态监控
url状态 页面是否被篡改 端口存活
mysql max connections...(并发连接数)
待处理消息
业务监控
业务稳定性
订单数
在线用户数
功能分析
1、一台主机,可以有多个监控项,cpu,ram,nic,disk,io,load
a--> cpu 90
ram 120
b--> cpu 60
disk 300
io 30
2、可以批量修改监控配置
主机组
服务模板
3、告警(故障升级)
Diaster
High
Warning
Info
Classfiled
4、历史数据的存储和优化
实现用最少的空间占用量存储最多的有效数据
如何做到1s中之内去除一台主机上所有服务的5年的监控数据?
经典承载5000+机器的组合,Django+uWsgi+nginx部署
分布式监控项目详细参考:http://www.cnblogs.com/alex3714/articles/5450798.html