随笔分类 - 监控系统
摘要:公司在IDC机房的一台服务器上部署了MongoDB,由于所存储的业务数据比较重要,所以对MongoDB的监控显得尤为重要!Zabbix监控MongoDB性能的原理:通过echo "db.serverStatus()" | mongo admin 来查看mongodb的状态。 Zabbix监控Mong
阅读全文
摘要:IDC两台机器上部署了Nginx+Keepalived主从模式的LB代理负载层,现在需要对LB进行每日巡检和服务监控,利用SendEmail邮件监控。 0)SendEmail部署 1)SendEmail脚本配置 2)LB每日巡检脚本(VIP资源为10.0.11.26) 3)LB监控脚本 温馨提示 邮
阅读全文
摘要:群机器人是钉钉群的高级扩展功能,群机器人可以将第三方服务的信息聚合到群聊中,实现自动化的信息同步。例如:通过聚合GitHub,GitLab等源码管理服务,实现源码更新同步;通过聚合Trello,JIRA等项目协调服务,实现项目信息同步。不仅如此,群机器人支持Webhook协议的自定义接入,支持更多可
阅读全文
摘要:1)实时监控网卡流量的通用脚本: 2)监控磁盘的监控脚本
阅读全文
摘要:通过shell脚本,判断172.16.60.0/24网络里,当前在线的ip有哪些?能ping通则认为在线。 案例一:单纯地对某些ip进行ping监控 案例二:对/etc/hosts列表里的ip映射关系进行ping监控报警 案例三:通过nc工具对/etc/hosts列表里的ip的443端口跟本机通信是
阅读全文
摘要:需求说明:在日常运维工作中,为了防止一些恶意访问的行为,例如不断的请求刷流量,通过实时过滤Nginx访问日志,将单位时间内访问次数达到指定阀值的来源ip查找出来,并通过邮件报警方式及时通知运维人员! 比如针对url为http://192.168.10.202:8888的访问进行监控,当在1分钟内访问
阅读全文
摘要:为了监控到各业务的访问质量,基于LB层的Nginx日志,实现LB层到Real Server之间访问请求的响应时间(即upstream_response_time)及HTTP状态码(即upstream_status)的监控及报警。操作记录如下:
阅读全文
摘要:需求:对一个目录(比如/data/test)进行监控,当这个目录下文件或子目录出现变动(如修改、创建、删除、更名等操作)时,就发送邮件!针对上面的需求,编写shell脚本如下: 确保本机能连上shell脚本中指定的smtp服务器的25好端口 下面开始测试 查看邮件,就能看到/data/test目录下
阅读全文
摘要:在zabbix监控中,默认cpu监控模板中的触发器,当负载在一定时间内(比如最近5分钟)超过5以上为报警阀值。但是在实际场景中,由于服务器配置不一样,这个默认的cpu触发器用起来意义就不大了,这时候就需要我们手动自定义cpu的触发器了。 在cpu utilization中有一个cpu idle时间,
阅读全文
摘要:之前部署了Zabbix(3.4.4版本)监控环境,由于主机比较多,分的主机组也比较多,添加聚合图形比较麻烦,故采用python脚本进行批量添加聚合图形。脚本下载地址:https://pan.baidu.com/s/1bpApIPp (密码:wpts)脚本操作如下: 如果后续zabbix监控的主机群组
阅读全文
摘要:Zabbix想要集中展示图像,唯一的选择是screen,后来zatree解决了screen的问题,但性能不够好。Graphtree 由OneOaaS开发并开源出来,用来解决Zabbix的图形展示问题,性能较好,Graphtree默认只支持3.0.0以上的zabbix版本。Zabbix自带的"聚合图形
阅读全文
摘要:大多数情况下,线上服务器都是linux系统,但是偶尔也会有些windows机器。下面简单介绍下zabbix添加windows监控机的操作:1)下载windows的zabbix_agent下载地址:https://www.zabbix.com/download (选择Windows (All)的下载)
阅读全文
摘要:即对日志文件中的error进行监控,当日志文件中出现error关键字时,即可报警!(grep -i error 不区分大小写进行搜索"error"关键字,但是会将包含error大小写字符的单词搜索出来) 1)第一类日志在每天的日志目录下生产的error日志,此日志文件每天都会自动生成,里面有没有er
阅读全文
摘要:由于公司业务比较多,部署的站点也比较多。为了网站安全运行,以防故障发生时能第一时间知晓,特意编写下面监控脚本,对网站访问状态和超时时间进行监控:当code状态为5xx或者访问超时时间大于10s时进行报警。脚本脚本如下: 手动检查网站访问的code状态码 手动检查网站访问的超时时间(单位:毫秒,如下网
阅读全文
摘要:在zabbix中默认当内存剩余量不足2G的时候触发报警,并没有使用百分比来触发如下: 现在需要配置:当memory剩余不足20%时触发报警,具体操作方法如下: 1)创建itemConfiguration-->Templates-->Template OS Linux-->items-->create
阅读全文
摘要:前面已分别介绍了zabbix的邮件、微信报警设置,这些都是手机在有网络时才能收到报警信息,那如果手机没有网的情况下怎么办,这就需要考虑使用短信接口报警了。当服务出现故障达到预警级别是通过发送短信的形式告诉运维人员,以便及时处理。公司的短信接口是从短信服务器购买的,并经过公司开发大神调整后使用的。废话
阅读全文
摘要:open-falcon的agent用于采集机器负载监控指标,比如cpu.idle、load.1min、disk.io.util等等,每隔60秒push给Transfer。agent与Transfer建立了长连接,数据发送速度比较快,agent提供了一个http接口/v1/push用于接收用户手工pu
阅读全文
摘要:在部署open-falcon环境过程中,安装Dashboard时候报错"SSLError: The read operation timed out"。如下: 解决办法:在命令后面追加"-i http://pypi.doubanio.com/simple"
阅读全文
摘要:通常来说,作为一个Linux的SA,很有必要掌握一个专门的系统监控工具,以便能随时了解系统资源的占用情况。下面就介绍下一款Linux性能实时监测工具-Netdata,它是Linux系统实时性能监测工具,以web的可视化方式展示系统及应用程序的实时运行状态(包括cpu、内存、硬盘输入/输出、网络等li
阅读全文
摘要:今天介绍一款高颜值监控绘图工具Grafana,在使用Zabbix监控环境中,通常我们会结合Grafana进行图形展示。Grafana默认没有zabbix作为数据源,需要手动给zabbix安装一个插件,然后再添加进Grafana即可,非常简单。下面就介绍下Grafana的使用: Grafana的官网:
阅读全文