【转】管理员必备的Linux系统监控工具

原文连接：

管理员必备的Linux系统监控工具

#1: top - 进程活动

　　top提供一个当前运行系统实时动态的视图，也就是正在运行进程。在默认情况下，显示系统中CPU使用率最高的任务，并每5秒钟刷新一次。

#2: vmstat -系统活动、硬件及系统信息

　　使用vmstat命令可以得到关于进程、内存、内存分页、堵塞IO、traps及CPU活动的信息。

#3: w - 显示谁已登录，他们正在做什么？

　　w命令显示系统当前用户及其运行进程的信息。

#4：uptime - 告诉系统已经运行了多久？

　　uptime命令过去只显示系统运行多久。现在，可以显示系统运行多久、当前有多少的用户登录、在过去的1，5，15分钟里平均负载时多少。

#5：ps - 显示进程

　　ps命令显示当前运行进程的快照。使用-A或-e 显示所有进程。ps 与 top 非常相似，但ps 提供更多的信息。

#6: free - 内存使用情况

　　free命令显示系统中空闲的、已用的物理内存及swap内存,及被内核使用的buffer。

#7: iostat - CPU平均负载，硬盘活动

　　iostat命令可报告中央处理器（CPU）的统计信息，各种设备、分区及网络文件系统输入/输出的统计信息。

#8: sar - 搜集和报告系统活动

　　sar命令用来搜集、报告和储存系统活动信息。

#9:mpstat - 多处理器使用率

　　mpstat命令可以显示所有可用处理器的使用情况，处理器编号从 0开始。mpstat -P ALL 显示每个处理器的平均使用率。

#10: pmap - 进程的内存使用

　　pmap命令可以显示进程的内存映射，使用这个命令可以找出造成内存瓶颈的原因。

#11：netstat - 网络相关信息

　　netstat 可以显示网络链接、路由表信息、接口统计信息、伪装链接和多播成员(multicast memberships)

#12：ss - 网络相关信息

　　ss命令用来显示网络套接字信息，它允许显示类似netstat一样的信息。

#13: iptraf - 网络实时信息

　　iptraf是一个可交互式的IP网络监控工具。它可以生成多种网络统计信息包括：TCP 信息、UDP数量、ICMP和OSPF信息、以太网负载信息、节点状态、IP校验错误等。

#14：tcpdump：详细的网络流量分析

　　tcpdump 是一个简单网络流量转储工具，然而要使用好需要对TCP/IP协议非常熟悉。

#15:strace - 系统调用

　　追踪系统调用和型号，这对于调试 Web服务器和其他服务器非常有用。了解怎样追踪进程和他功能。

#16：/proc文件系统 - 各种内核信息

　　/proc目录下文件提供了很多不同硬件设备和内核的详细信息。

#17:Nagios - 服务器及网络监控

　　Nagios 是一款非常流行的系统及网络监控软件。你可以轻松监控所有的主机、网络设备及服务。它能在发生故障和重新恢复后发送警讯。

#18:Cacti - 基于Web的监控工具

　　Cacti是一套完成的网络图形化解决方案，基于RRDTool的资料存储和图形化功能。Cacti提供一个快速的轮询器、进阶的图形化模板、多种数据采集方法和用户管理功能。这些功能都拥有非常友好易用的界面，确保可以部署在一个包含数百台设备的复杂网络中。它提供关于网络CPU、内存、已登录用户、Apache、DNS等信息。

#19:KDE System Guard

　　KSysguard 是在 KDE 桌面下一个网络化的系统监控工具。这个工具可以通过SSH会话运行。它提供很多功能，例如可以监控本机和远程主机的客户端/服务器架构，前端图形界面使用所谓传感器得到信息并展现出来。传感器返回的可以是一个简单的数值或是一组表格的信息。针对不同的信息类型，提供一个或多个显示。这些显示被组织多个工作表中，可以工作表可以独体储存和加载。所以，KSysguard不只是一个简单的任务管理器，还是一个可以控制多台服务器的强大工具。

#20:Gnome System Monitor

　　System Monitor可以显示系统基本信息、监控系统进程、系统资源及文件系统使用率。你也可以使用System Monitor监控和修改系统行为。尽管没有KDE System Guard功能强大，但其提供的基本信息对于入门用户还是非常有用的。

Linux常用监控命令简介

- top

　　指令介绍

　　-b : 批次模式运行。

　　-c : 显示执行任务的命令行。

　　-d : 设定延迟时间

　　-h : 帮助

　　-H : 显示线程。将显示所有进程产生的线程。

　　-i : 显示空闲的进程。

　　-n : 执行次数。一般与-b搭配使用

　　-u : 监控指定用户相关进程

　　-U : 监控指定用户相关进程

　　-p : 监控指定的进程。

　　-s : 安全模式操作

　　-S : 累计时间模式

　　-v : 显示top版本，然后退出。

　　-M : 自动显示内存单位（k/M/G）

　　top作为日常管理工作中最常用也是最重要的Linux 系统监控工具之一，可以动态观察系统进程状况。top命令显示的项目很多，默认值是每5秒更新一次，按q键可以退出。显示的各项目为：

　　输出数值解读为：

　　15:06:57 up 129 days, 19:03, 5 users, load average: 1.21, 1.20, 1.25

　　uptime 该项显示的是系统启动时间、已经运行的时间和三个平均负载值（最近1秒，5秒，15秒的负载值）。

　　222 processes: 219 sleeping, 2 running, 1 zombie, 0 stopped

　　processes 自最近一次刷新以来的运行进程总数。这些进程被分为正在运行的，休眠的，停止的。

　　CPU states: cpu user nice system irq softirq iowait idle

　　 total 0.9% 0.0% 27.4% 0.0% 0.0% 0.2% 71.2%

　　 cpu00 1.9% 0.0% 19.4% 0.0% 0.0% 0.0% 78.6%

　　 cpu01 0.0% 0.0% 33.0% 0.0% 0.0% 0.0% 66.9%

　　 cpu02 1.9% 0.0% 22.3% 0.0% 0.0% 0.9% 74.7%

　　 cpu03 0.0% 0.0% 35.2% 0.0% 0.0% 0.0% 64.7%

　　CPU states 显示用户模式，系统模式，优先级进程（只有优先级为负的列入考虑）和闲置等各种情况所占用CPU时间的百分比。优先级进程所消耗的时间也被列入到用户和系统的时间中，所以总的百分比将大于100％。

　　Mem: 16214336k av, 15682832k used, 531504k free, 0k shrd, 215016k buff

　　 10896844k actv, 3379680k in_d, 446432k in_c

　　Mem 内存使用情况统计，其中包括总的可用内存，空闲内存，已用内存，共享内存和缓存所占内存的情况。

　　Swap: 10482404k av, 0k used, 10482404k free 14856500k cached

　　Swap 交换空间统计，其中包括总的交换空间，可用交换空间，已用交换空间。

　　PID USER PRI NI SIZE rss SHARE STAT %CPU %MEM TIME CPU COMMAND

　　27869 root 25 0 460M 460M 455M R 25.0 2.9 12559m 1 vmware-vmx

　　31819 root 16 0 6016 6016 5048 S 1.6 0.0 17573m 2 magicdev

　　27837 root 15 -10 460M 460M 455M S < 0.7 2.9 1328m 0 vmware-vmx

　　27868 root 15 -10 460M 460M 455M S < 0.3 2.9 644:35 3 vmware-vmx

　　PID 每个进程的ID。PPID 每个进程的父进程ID。UID 每个进程所有者的UID 。

　　USER 每个进程所有者的用户名。

　　PRI 每个进程的优先级别。

　　NI 该进程的优先级值。

　　SIZE 该进程的代码大小加上数据大小再加上堆栈空间大小的总数。单位是KB。

　　TSIZE 该进程的代码大小。对于内核进程这是一个很奇怪的值。

　　DSIZE 数据和堆栈的大小。

　　TRS 文本驻留大小。

　　D 被标记为“不干净”的页项目。

　　LIB 使用的库页的大小。对于ELF进程没有作用。

　　RES 该进程占用的物理内存的总数量，单位是KB。

　　SHARE 该进程使用共享内存的数量。

　　STAT 该进程的状态。S=休眠；D=不可中断的休眠；R=运行；Z=僵死；T=停止或跟踪。

　　TIME 该进程自启动以来所占用的总CPU时间。如果进入的是累计模式，那么该时间还包括这个进程子进程所占用的时间。且标题会变成CTIME。

　　％CPU 该进程自最近一次刷新以来所占用的CPU时间和总时间的百分比。

　　％MEM 该进程占用的物理内存占总内存的百分比。

　　COMMAND 该进程的命令名称，如果一行显示不下，则会进行截取。内存中的进程会有一个完整的命令行。

　　：Linux常用监控命令简介 – vmstat，ps等

　　vmstat [-a] [-n] [delay [ count]]

　　vmstat [-f] [-s] [-m]

　　vmstat [-S unit]

　　vmstat [-d]

　　vmstat [-p disk partition]

　　vmstat [-V]

　　指令介绍

　　-a：显示活跃和非活跃内存

　　-f：显示从系统启动至今的fork数量。

　　-m：显示slabinfo

　　-n：只在开始时显示一次各字段名称。

　　-s：显示内存相关统计信息及多种系统活动数。

　　delay：刷新时间间隔。如果不指定，只显示

　　一条结果。

　　count：刷新次数。如果不指定刷新次数，但

　　指定了刷新时间间隔，这时刷新次数为无穷。

　　-d：显示磁盘相关统计信息。

　　-p：显示指定磁盘分区统计信息

　　-S：使用指定单位显示。参数有 k , K, m, M,

　　分别代表 1000, 1024, 1000000, 1048576

　　字节。默认单位为K（1024 bytes）

　　-V：显示vmstat版本信息。

　　方便用法推荐

　　每2秒输出一条结果

　　vmstat 2

　　显示活跃和非活跃内存

　　vmstat -a 2

　　输出数值解读

　　(Procs)r: 运行队列中进程数量

　　(Procs)b: 等待IO的进程数量

　　(Memory)swpd: 使用虚拟内存大小

　　(Memory)free: 可用内存大小

　　(Memory)buff: 用作缓冲的内存大小

　　(Memory)cache: 用作缓存的内存大小

　　(Swap)si: 每秒从交换区写到内存的大小

　　(Swap)so: 每秒写入交换区的内存大小

　　(IO)bi: 每秒读取的块数

　　(IO)bo: 每秒写入的块数

　　(System)in: 每秒中断数，包括时钟中断。

　　(System)cs: 每秒上下文切换数。

　　(CPU)us: 用户进程执行时间(user time)

　　(CPU)sy: 系统进程执行时间(system time)

　　(CPU)id: 空闲时间(包括IO等待时间)

　　(CPU)wa: 等待IO时间

　　ps 命令

　　ps [options]

　　指令介绍

　　-e 显示所有进程。

　　-f 全格式。

　　-h 不显示标题。

　　-l 长格式。

　　-w 宽输出。

　　a 显示终端上的所有进程，包括其他用户的

　　r 只显示正在运行的进程。

　　x 显示没有控制终端的进程。

　　方便用法推荐

　　查看使用Vivek用户名运行的进程

　　# ps -U vivek -u vivek u

　　只显示Lighttpd的进程ID

　　# ps -C lighttpd -o pid=

　　找出消耗内存最多的前10名进程

　　# ps -auxf | sort -nr -k 4 | head -10

　　找出使用CPU最多的前10名进程

　　# ps -auxf | sort -nr -k 3 | head -10

　　free 命令

　　free [-b|-k|-m][-o][-s delay][-t][-V]

　　指令介绍

　　-b 以Byte为单位显示内存使用情况。

　　-k 以KB为单位显示内存使用情况。

　　-m 以MB为单位显示内存使用情况。

　　-o 不显示缓冲区调节列。

　　-s<间隔秒数> 持续观察内存使用状况。

　　-t 显示内存总和列。

　　-V 显示版本信息。

　　输出数值解读

　　total used free shared buffers cached

　　Mem: 3266180 3250004 16176 0 110652

　　2668236

　　-/+ buffers/cache: 471116 2795064

　　Swap: 2048276 80160 1968116

　　total:总计物理内存的大小。

　　used:已使用多大。

　　free:可用有多少。

　　Shared:多个进程共享的内存总额。

　　Buffers/cached:磁盘缓存的大小。

　　used:已使用多大。

　　free:可用有多少。

　　uptime 命令

　　uptime

　　uptime [-V]

　　输出数值解读

　　18:02:41 up 41 days, 23:42, 1 user,

　　load average: 0.00, 0.00, 0.00

　　10:19:04：系统当前时间

　　up 257 days, 18:56：主机已运行时间,时间越大，说明你的机器越稳定。

　　12 user：用户连接数，是总连接数而不是用户数

　　load average：系统平均负载，统计最近1, 5,15分钟的系统平均负载，如果每个CPU内核的当前活动进程数不大于3的话，那么系统的性能是良好的。如果每个CPU内核的任务数大于5，那么这台机器的性能有严重问题。

posted @ 2015-10-14 16:44 wuling129 阅读(345) 评论(0) 编辑收藏举报

刷新页面返回顶部

【转】管理员必备的Linux系统监控工具

公告