高并发&性能优化(二)------系统监控工具使用
上一篇主要从总体介绍了高并发&性能优化的相关思路和方法,本篇主要介绍系统监控工具。
【CPU查看工具】
------top命令(性能)
进入top命令后,按1即可看到每核CPU的运行指标与详细指标:
咱们依次说明下红框里面的参数:
Load Average |
一段时间内系统的平均负载,这个一段时间一般取1分钟、5分钟、15分钟 |
us |
用户态所占用的 CPU 百分比,即引用程序所耗费的 CPU |
sy |
内核态所占用的 CPU 百分比,可配合 vmstat 命令,查看上下文切换是否频繁 |
ni |
高优先级应用所占用的 CPU 百分比 |
id |
空闲 CPU 百分比 |
wa |
等待 I/O 设备所占用的 CPU 百分比,经常使用它来判断 I/O 问题,过高输入输出设备可能存在非常明显的瓶颈 |
hi |
硬中断所占用的 CPU 百分比 |
si |
软中断所占用的 CPU 百分比 |
st |
虚拟机等待宿主机 CPU 的时间占比,在一些超售的云服务器上,经常发生 |
?硬中断&软中断
硬中断是由与系统相连的外设(网卡,硬盘等)产生的,如当网卡收到一个数据包。
软中断是正在运行的应用产生的,通常指的是一些对于I/O的操作,软中断可放到中断之后执行。
一般情况下,我们会比较关心id(空闲 CPU 百分比),可以从整体上大致看出CPU的真实利用率。
------uptime(负载)
其实,在top里面,已经可以看出平均负载的具体数值。
但是我们也有另外一种方式,分别显示最近 1min、5min、15min 的数值:
一般负载达到1*CPU核数,我们可以认为系统负载达到了极限。
------vmstat(CPU 繁忙程度)
查看CPU的繁忙程度,可以通过vmstat查看:
图中红框需要特别关注一下:
r |
运行队列 |
正在运行的队列长度,一般体现任务总量 |
b |
阻塞队列 |
等待资源的任务队列,如果系统负载有问题,可以专注一下b列(Uninterruptible Sleep),指的是等待I/O,可能读写盘操作比较多。 |
cs |
每秒钟上下文切换(Context Switch) |
如果上下文切换过于频繁,就需要考虑是否是进程或者线程数开的过多 |
si/so |
|
显示了交换分区的一些使用情况,交换分区对性能的影响比较大,需要格外关注 |
如果我们想进一步查看固定进程的上下文切换数量,可以通过以下命令查看:
【内存查看工具】
首先,我们从操作系统层面看一下内存的基本结构:
先简单解释下上面几个名词:
------逻辑内存
当我们写了一个程序,然后去查看它的底层汇编实现的时候,看到的内存地址,其实不是真正的物理内存地址,叫逻辑内存,逻辑内存是通过MMU映射到真实的物理内存地址上的。
------MMU
内存管理单元。
虚拟地址和物理地址的映射关系存储在页表中,页表是分级的,64位系统一般都是3~5级。
在硬件上会有一个叫做页表基地址寄存器,它存储PGD页表的首地址。
MMU就是根据页表基地址寄存器从PGD页表一路查到PTE,最终找到物理地址(PTE页表中存储物理地址)。
------TLB
translation lookaside buffer,地址转换后援缓冲器(快表)。
TLB其实就是一块高速缓存,缓存虚拟地址和其映射的物理地址,避免了每次都需要一级一级查找页表获取物理地址。
------虚拟内存
逻辑地址可以映射到两个内存段上:物理内存和虚拟内存。
虚拟内存就是物理内存不够用的时候把一些很少访问的内存数据转存到硬盘上,然后把这部分内存腾出来分配给其它应用。
------top
了解了基本概念之后,我们再来了解一下top在内存查看中的应用:
红框中的三个参数是内存相关的:
VIRT |
虚拟内存,一般比较大 |
RES |
代表了进程实际占用的内存,平常在做监控时,主要监控的也是这个数值; |
SHR |
共享内存,一块内存空间可以被多个应用查看,里面是一些可以复用的内容。 |
【I/O】
I/O 设备可能是计算机里速度最慢的组件了,它指的不仅仅是硬盘,还包括外围的所有设备。
I/O设备和内存之间的速度差是非常大的,如何去缓解这个问题呢?
缓冲!缓冲区是现在解决速度差的唯一方法,不论是cpu->内存,还是内存->硬盘。
首先,我们回顾一下之前说过的"top"和"vmstat",里面有一个参数,叫"wa",它是最能体现I/O的繁忙程度了。如果你的应用有大量写入文件的操作(比如日志),I/O wait就可能会非常高。
------iostat
当然,查看I/O也有一个很好的工具,就是iostat,可以通过sysstat安装。
我们来大概了解一下主要参数:
%util |
通常情况下,要先check这个数值; |
Device |
会列举你所有的硬盘 |
avgqu-sz |
平均请求队列的长度 |
await |
响应时间包含了队列时间和服务时间,它有一个经验值。 |
svctm |
表示操作 I/O 的平均服务时间; |
------零拷贝
说到I/O了,我们再衍生一下,讲一个通常的优化手段。
比如,我们在java里面进行一个简单的文件拷贝,在内核的支持下,零拷贝少了一个步骤,那就是内核缓存向用户空间的拷贝,这样既节省了内存,也节省了 CPU 的调度时间,让效率更高。
本篇先到这里,下一篇,咱们介绍性能测试工具。