摘要:
1.存活监控 基本监控,主要对进程的存活、端口连通性、url可检测性等指标进行监控。 2.2 可用性监控 主要指对用户而言是否可用,能否返回预期结果,通常部署在一些业务主流程或一些关键环节,如接口调用,平台读写操作,端到端访问等。 2.3 性能指标 性能指标指可能影响业务正常运行的重要指标,一般偏离 阅读全文
摘要:
需求:使用shell定制各种个性化告警工具,但需要统一化管理、规范化管理。思路:指定一个脚本包,包含主程序、子程序、配置文件、邮件引擎、输出日志等。主程序:作为整个脚本的入口,是整个系统的命脉。配置文件:是一个控制中心,用它来开关各个子程序,指定各个相关联的日志文件。子程序:这个才是真正的监控脚本, 阅读全文
摘要:
1.apache web 服务器 1 2 3 4 5 6 7 8 9 10 !/bin/bash # 表示请求链接3秒钟,不要返回的测试数据 nc -w 3 localhost 80 &>/dev/null if [ $? -eq 0 ];then str="apache web status Ru 阅读全文
摘要:
New Relic hadoop jmx granfa falcon Ganglia,Nagios和Chukwa 自带监控软件 hadoop yarn 开启jmx监控 打开{hadoop_home}/etc/hadoop/yarn-env.sh文件,文件最后添加三行。 YARN_OPTS=”$YAR 阅读全文
摘要:
HDFS相关 datanode相关 参数解释 dfs.datanode.blockChecksumOp_avg_time 块校验平均时间 dfs.datanode.blockChecksumOp_num_ops 块检验次数 dfs.datanode.blockReports_avg_time 块报告 阅读全文
摘要:
在linux的系统维护中,可能需要经常查看cpu使用率,分析系统整体的运行情况。而监控CPU的性能一般包括以下3点:运行队列、CPU使用率和上下文切换。 对于每一个CPU来说运行队列最好不要超过3,例如,如果是双核CPU就不要超过6。如果队列长期保持在3以上,说明任何一个进程运行时都不能马上得到cp 阅读全文
摘要:
几个基本的概念 在研究磁盘性能之前我们必须先了解磁盘的结构,以及工作原理。不过在这里就不再重复说明了,关系硬盘结构和工作原理的信息可以参考维基百科上面的相关词条——Hard disk drive(英文)和硬盘驱动器(中文)。 读写IO(Read/Write IO)操作 磁盘是用来给我们存取数据用的, 阅读全文
摘要:
命令功能应用用法举例 free 查看内存使用情况,包括物理内存和虚拟内存 free -h或free -m vmstat 对系统的整体情况进行统计,包括内核进程、虚拟内存、磁盘、陷阱和 CPU 活动的统计信息 vmstat 2 100 top 实时显示系统中各个进程的资源占用状况及总体状况 top m 阅读全文
摘要:
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。 这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooK 阅读全文
摘要:
1.Linux运维基础采集项 做运维,不怕出问题,怕的是出了问题,抓不到现场,两眼摸黑。所以,依靠强大的监控系统,收集尽可能多的指标,意义重大。但哪些指标才是有意义的呢,本着从实践中来的思想,各位工程师在长期摸爬滚打中总结出来的经验最有价值。 在各位运维工程师长期的工作实践中,我们总结了在系统运维过 阅读全文
摘要:
1.登录测试服务器xxxxxx xxxxxx su root输入xxxx 2.先修改Tomcat的启动脚本,(linux下为catalina.sh),添加以下内容: CATALINA_OPTS="$CATALINA_OPTS -Dcom.sun.management.jmxremote -Djava.rmi.server.hostname=xxxx -Dcom.sun.management.j... 阅读全文